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出版说明 


由香港科技大学社会科学部吴晓刚教授主编的“格致方 
法 • 定量研究系列”丛书，精选了世界著名的 SAGE 出版社 
定量社会科学研究丛书，翻译成中文，起初集结成八册，于 
2011年出版。这套丛书自出版以来，受到广大读者特别是年 
轻一代社会科学工作者的热烈欢迎。为了给广大读者提供 
更多的方便和选择，该丛书经过修订和校正，于2012年以单 
行本的形式再次出版发行，共37本。我们衷心感谢广大读 
者的支持和建议。 

随着与 SAGE 出版社合作的进一步深化,我们又从丛书 
中精选了三十多个品种，译成中文，以獪读者。丛书新增品 
种涵盖了更多的定量研究方法。我们希望本丛书单行本的 
继续出版能为推动国内社会科学定量研究的教学和研究作 
出一^点贡献。 



2003 年，我赴港工作，在香港科技大学社会科学部教授 
研究生的两门核心定量方法课程。香港科技大学社会科学 
部自创建以来，非常重视社会科学研究方法论的训练。我开 
设的第一门课“社会科学里的统计学 ” （Statistics for Social 
Science ) 为所有研究型硕士生和博士生的必修课，而第二门 
课“社会科学中的定量分析”为博士生的必修课（事实上，大 
部分硕士生在修完第一门课后都会继续选修第二门课）。我 
在讲授这两门课的时候,根据社会科学研究生的数理基础比 
较薄弱的特点，尽量避免复杂的数学公式推导，而用具体的 
例子，结合语言和图形，帮助学生理解统计的基本概念和模 
型。课程的重点放在如何应用定量分析模型研究社会实际 
问题上，即社会研究者主要为定量统计方法的“消费者”而非 
“生产者”。作为“消费者”，学完这些课程后，我们一方面能 
够读懂、欣赏和评价别人在同行评议的刊物上发表的定量研 
究的 文章; 另一方面，也能在自己的研究中运用这些成熟的 
方法论技术。 

上述两门课的内容，尽管在线性回归模型的内容上有少 
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量重复，但各有侧重。“社会科学里的统计学”从介绍最基本 
的社会研究方法论和统计学原理开始，到多元线性回归模型 
结束，内容涵盖了描述性统计的基本方法、统计推论的原理、 
假设检验、列联表分析、方差和协方差分析、简单线性回归模 
型、多元线性回归模型，以及线性回归模型的假设和模型诊 
断。“社会科学中的定量分析”则介绍在经典线性回归模型 
的假设不成立的情况下的一些模型和方法，将重点放在因变 
量为定类数据的分析模型上，包括两分类的 logistic 回归模 
型、多分类 logistic 回归模型、定序 logistic 回归模型、条件 
logistic 回归模型、多维列联表的对数线性和对数乘积模型、 
有关删节数据的模型、纵贯数据的分析模型,包括追踪研究 
和事件史的分析方法。这些模型在社会科学研究中有着更 
加广泛的应用。 

修读过这些课程的香港科技大学的研究生，一直鼓励和 
支持我将两门课的讲稿结集出版，并帮助我将原来的英文课 
程讲稿译成了中文。但是，由于种种原因，这两本书拖了多 
年还没有完成。世界著名的出版社 SAGE 的“定量社会科学 
研究”丛书闻名遐迩.每本书都写得通俗易懂，与我的教学理 
念是相通的。当格致出版社向我提出从这套丛书中精选一 
批翻译，以飨中文读者时，我非常支持这个想法，因为这从某 
种程度上弥补了我的教科书未能出版的遗憾。 

翻译是一件吃力不讨好的事。不但要有对中英文两种 
语言的精准把握能力，还要有对实质内容有较深的理解能 
力，而这套丛书涵盖的又恰恰是社会科学中技术性非常强的 
内容，只有语言能力是远远不能胜任的。在短短的一年时间 
里，我们组织了来自中国内地及香港、台湾地区的二十几位 



研究生参与了这项工程，他们当时大部分是香港科技大学的 
硕士和博士研究生，受过严格的社会科学统计方法的训练， 
也有来自美国等地对定量研究感兴趣的博士研究生。他们 
是香港科技大学社会科学部博士研究生蒋勤、李骏、盛智明、 
叶华、张卓妮、郑冰岛，硕士研究生贺光烨、李兰、林毓玲、肖 
东亮、辛济云、於嘉、余珊珊，应用社会经济研究中心研究员 
李俊秀;香港大学教育学院博士研究生洪 岩璧; 北京大学社 
会学系博士研究生李丁、赵 亮员； 中国人民大学人口学系讲 
师巫锡炜；中国台湾“中央”研究院社会学所助理研究员林宗 
弘; 南京师范大学心理学系副教授 陈陈; 美国北卡罗来纳大 
学教堂山分校社会学系博士候选人姜 念涛; 美国加州大学洛 
杉矶分校社会学系博士研究生 宋曦; 哈佛大学社会学系博士 
研究生郭茂灿和周韵。 

参与这项工作的许多译者目前都已经毕业，大多成为中 
国内地以及香港、台湾等地区高校和研究机构定量社会科学 
方法教学和研究的骨干。不少译者反映，翻译工作本身也是 
他们学习相关定量方法的有效途径。鉴于此，当格致岀版社 
和 SAGE 出版社决定在“格致方法 • 定量研究系列”丛书中 
推出另外一批新品种时，香港科技大学社会科学部的研究生 
仍然是主要力量。特别值得一提的是，香港科技大学应用社 
会经济研究中心与上海大学社会学院自2012年夏季开始， 
在上海(夏季)和广州南沙(冬季)联合举办《应用社会科学研 
究方法研修班》，至今已经成功举办三届。研修课程设计体 
现“化整为零、循序渐进、中文教学、学以致用”的方针，吸引 
了一大批有志于从事定量社会科学研究的博士生和青年学 
者。他们中的不少人也参与了翻译和校对的工作。他们在 
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繁忙的学习和研究之余，历经近两年的时间，完成了三十多 
本新书的翻译任务，使得“格致方法 • 定量研究系列”丛书更 
加丰富和完善。他 们是： 东南大学社会学系副教授洪岩璧， 
香港科技大学社会科学部博士研究生贺光烨、李忠路、王佳、 
王彦蓉、许多多，硕士研究生范新光、缪佳、武玲蔚、臧晓露、 
曾东林，原硕士研究生李兰，密歇根大学社会学系博士研究 
生王骁，纽约大学社会学系博士研究生温芳琪，牛津大学社 
会学系研究生周穆之，上海大学社会学院博士研究生陈 
伟等。 

陈伟、范新光、贺光烨、洪岩璧、李忠路、缪佳、王佳、武玲 
蔚、许多多、曾东林、周穆之，以及香港科技大学社会科学部 
硕士研究生陈佳莹，上海大学社会学院硕士研究生梁海祥还 
协助主编做了大量的审校工作。格致出版社编辑高璇不遗 
余力地推动本丛书的继续出版，并且在这个过程中表现岀极 
大的耐心和高度的专业精神。对他们付出的劳动，我在此致 
以诚挚的谢意。当然.每本书因本身内容和译者的行文风格 
有所差异，校对未免挂一漏万，术语的标准译法方面还有很 
大的改进空间。我们欢迎广大读者提出建设性的批评和建 
议，以便再版时修订。 

我们希望本丛书的持续出版，能为进一步提升国内社会 
科学定量教学和研究水平作出一点贡献。 


吴晓刚 

于香港九龙清水湾 
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第一次听到“虚拟变量”这个词的时候，许多定量研究方 
法的学生都会觉得有趣，但很快他们就会意识到，这个听上 
去“虚拟”的方法，在定量研究中却起着至关重要的作用。我 
们知道，在回归分析中.用定序或者名义变量作为自变量来 
进行回归分析，既不能有效地反映因变量与自变量之间的实 
际关系，而且又容易出现拟合不足的情况。然而，引人了“虚 
拟变量”的概念后，我们就可以在不违反测量相关假设的情 
况下，运用最小二乘法进行回归分析。 

那到底什么是“虚拟变量”呢？简单地说，虚拟变量是由 
原先的定性变量构建出来的二分变量。对于二分法，通常需 
要 G -1 个数字来涵盖所有信息，其中 G 为原先类别的 个数。 
例如，在民意调查中，如果我们希望表达公民的政治兴趣(其 
中包括3个类别一非常同意、有点同意、不同意），研究者 
必须构建两个二分变量。假设它们分别为足（编码1表示非 
常同意，0表示除非常同意外的类别）和 X 2 (编码1表示有点 
同意，0表示除有点同意外的类别），如 果不、 X 2 两个变量的 
编码都为0,那么暗示了受访者所属类别为不同意。在这里， 
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“不同意”这个类别被设置成了底线.或者说是一个参照组， 
从而 x , 和； c 2 的回归系数都是在其他组与该组比较后估计 
得到的。 

但是为什么选择“不同意”作为参照组而不选其他类别， 
如“有点同意”呢？曾经使用过虚拟变量的研究者基本都遇 
到过这样的问题。在这里， Hardy 教授给出了明确的答案。 
在本书中 ，一 个有关收入的、精心设计的例子贯穿全文，从一 
个简单模型(含有一个虚拟变量的回归模型，我们常常将其 
简化到均值差异的检验）到一系列复杂模型（含有多个虚拟 
变量、多个定量变量及多个交互项的回归模型）。所幸的是， 
通过严谨的语言叙述，这种复杂性可以用不同条件下所得的 
回归系数来表达。 

对虚拟变量回归有了基本了解后， Hardy 教授还提出了 
有关虚拟变量回归的一些特殊问题。除此以外，她还对如何 
处理异方差性，在因变量取对数或者 logit 后，如何对回归系 
数进行诠释，如何在显著性检验下进行多重比较.如何进行 
效果编码和对比编码以及如何检验曲线性和如何进行分段 
线性回归作出了解释。 

总之，本书以通俗易懂的语言，从不同角度对虚拟变量 
的用法进行了详述。在有关统计方法的书籍中.没有任何一 
个作者可以如此全面地诠释一个问题。可以说，这本书无疑 
是一部有关虚拟变量回归的重要著作。 


迈克尔 . S . 刘易斯-贝克 
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回归分析是定量分析中运用最灵活、最广泛的一种方 
法。一个典型的回归模型试图将因变量兄映射到一系列特 
定的自变量 X ;上，并通过相应的线性函数来解释因变量 Y , 
的变异。利用最小二乘估计，我们可以得到一个预测方程， 
用来估计自变量的条件均值.即特定自变量组合下的 Y 的期 
望值，从而得到因变量的条件均值。当自变量像定量变量那 
样可测量时，我们可以假设其为一系列任意的相对零点且间 
隔大致相等的定量变量，此时，所有可能的 Y 的期望值都是 
无限的。此外，当因变量和自变量都是定量变量时,其相应 
的关系可用几何图形表示。 

在二元回归中，我们预测 Y 为唯一自变量的函数，则两 
个变量之间的关系可由回归线直接表示。线上所有的点代 
表 Y 的条件均值。当有第二个自变量包含到函数中时，一维 
回归线扩展成二维，一个由南北方向和东西方向的线组成的 
平面生成了，此时代表 Y 的条件均值的是所有处于该平面上 
的点。由此可见.当自变量的数量增加时，这些原则是保持 
不变的，尽管其几何形态可能变得难以描述。 

但如果所有用来预测的自变量都用间隔尺度来衡量，那 
么回归模型的有效性将会受到严重制约。我们研究的问题 
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经常涉及组差异，如社会学家感兴趣的对民族/种族差异、性 
别差异，或行为、态度及社会经济特征的区域差异的解释。 
又如，市场调研人员希望从人口统计数据中了解消费者偏 
好。研究人员常常想知道对于所有组别，自变量的影响是否 
一样，或者在同一关系的强度或方向上，组差异是否依然存 
在。由此可知，我们大多数的研究问题是为了区别各级因变 
量下的组差异以及不同自变量影响下的因变量的组差异。 

当感兴趣的自变量为定性变量时 ( S 卩“只在名义水平上测 
量”），我们需要一种方法，它既能定量地代表这种信息，又能 
防止将不切实际的测量假设强加于分类变量。例如，我们可 
以将职业分类按1到12进行编码(该分类用于人口普查中的 
单数代码），但我们不可以简单地说，职业的范围是从低值1 
到高值12,因为这种描述是建立在假定的间隔相等的基本衡量 
标准上的。定义一系列虚拟变量可以使我们捕捉到分类方案里 
的分级信息，然后把此信息用到标准回归估计中。事实上，回归 
方程中的自变量可以是任意定性和定量预测因子的组合。 

例如，“社会资源是通过收人进行分配的”，这个现象既 
是那些对不平等感兴趣的学者所关注的焦点，也是那些努力 
为维持生活水平而奋斗的人民群众所关心的问题。我们关 
于社会公正的信念往往建立在对资源分布的认识上，以及是 
否有某些特定团体在分配过程中处于优势或劣势。我们知 
道，对于研究劳动收人分配中的歧视，有一种常见的方法，即 
首先确定一个组差异，比如男人和女人的差异或者黑人和白 
人的区别，以这个组差异作为在劣势群体的总效应，然后探 
讨加人其他决定性因素后，这个总差异如何变化，它是不是 
仍然维持不变？通过此方法，那些形成于社会进程中的、可 
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察觉的不平等从而可被识别。 

为了之后讨论统计方法时的连贯性，我会引用一个例子， 
即预测收人是个体特征的函数，并用定性或定量变量描述相 
应的个体特征。我所用的数据来自全国老年男性纵向调查。 
通过第一次人户结果 [1] 可知，在最初的样本中，我们的研究对 
象大约为美国1500万45岁至59岁且未收容到专门机构(如 
监狱、精神病院）的男性。在该例中，我们比较感兴趣的变量 
包括种族、职业(美国人 P 普査分类)、教育(受教育年限)和工 
作任期(在同一个雇主下的工作年限)。尽管其他变量，例如 
劳动力的供给、工作技能、健康等也可以被假设为(通过薪酬 
得到的)年收入的预测因子，但是对于此例，我们不予考虑，而 
用只含有四个预测因子的函数提供一个定性定量相结合的估 
测。通过讨论逐步复杂化的模型来阐述虚拟变量回归的方 
法，我会尽量解释清楚有关任意特定的虚拟变量的系数是如 
何随模型整体而变的问题。同时.我还希望通过这些努力，减 
少读者在不适用的情况下，对此方法进行演绎的可能性。 

本书以讨论我们最初关注的问题——黑人和白人之间 
的收入差异(用“美元/年”衡量）开始。之后，我们会不断加 
人新的假设并逐步建立复杂的模型进行检验。我们所要估 
计的是.当控制了更多的自变量（包括定性的或定量的）后， 
黑人和白人之间的平均收人差异是否仍然存在。还有，各个 
自变量的净效应在黑人和白人中是否一样。最后，我们将使 
用虚拟变量回归的形式来估计种族对回归模型所有参数的 
具体影响。有关这个逐步深人的过程.我们将在第4章具体 
描述。尽管未必所有读者都对收人分配这个话题感兴趣，但 
是由于其中所涉及的方法比较直接简单，所以适合各个学科 
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背景的读者。此外.这些对模型的解释方式很容易扩展到其 
他实质性研究里，所以我还是选择了这个例子。本书第5章 
提供了一个有关对虚拟变量的替代性编码策略的简短描述。 
在第6章中，我们会把视线从单个问题上移开，而更加关注 
虚拟变量在其他研究里的运用。 



第 1 节 I 多元线性回归回顾 


随后的讨论均建立在有关单次方程回归模型的概念、偏 
相关的方法以及假设检验的基础上，这些读者都已比较熟 
悉。 如果读者对这些还不太清楚，建议先阅读有关回归的介 
绍性书籍，其中有较早的卷本（比如 ， Berry &- Feldman , 
1985; LewisBeck , 1980; Schroeder , Sjoquist &- Stephan , 
1986)， 还有一些基本的统计书籍（比如 ， Bohrnstedt Kno - 
ke , 1982； Cohen &• Cohen , 1983) ，这些书可为我们即将讨 
论的问题提供非常有用的信息。 

在文中，我们还会用到一些符号语言，因此，现在来回顾 
一些基本的符号。假设我们有一个定量的因变量 ( K )， 其为 
三个定量自变量 x „、 x 2 i 、 x 3 , 的线性函数，则总的回归函数 
可 写为： 


y ; = (3 o + Pi X ]； + §2 Xu + p 3 X 3i + U , 

= po + XI + M; [1.1] 

其中 4 为第 々个自 变量」为第 i 个观测值。该方程表达了 
Y , 是 X ,,、 X 2 ,、 X 3 i 以及随机误差项^的线性函数办是截距 
项，其可解释为当所有自变量均为0时的值屮为总体偏 
回归系数，表示当控制了其他自变量后, X ,,每变化一个单 



元， y , 增加或者减少 的量； 氏和氏同样也是总体偏回归系 
数.其分别是变 量不, 和 x 3 ，的系数。由此可知，总体回归函 
数对于给定的自变量提供了 Y , 的条件均值或期望值。 
因此，我们可以通过样本回归函数，用最小二乘估计来估测 
其所在的总体参数。 

Y , = B 0 + B L X U + B 2 X 2 ，+ B 3 X 3i + e , [1.2] 

每个回归系数氏、、压、 B 3 既是方程 1. 1中相对应的总 
体参数的点估计，也是统计量抽样分布的一个观测值。我们 
用4的观测值来估计总体方差和抽样分布里 B 。、 岛、压和 
B 3 的标准误.从而可以评估所得出的估测的显著性意义，进 
而对 Y , 和；^的关系作出结论。此外，标准差还可以用来构 
造区间估计，该区间通常被称为“置信区间”，其对评估有关 
假定的统计证据很有用。当如下假设都成立时，我们就可以 
用最小二乘法来分析这些样本数 据了： 

(1) E ( u , I X t ) = 0； 即，在给定的 X * 值下， m , 的平 
均值为0。 

(2) cov («. , Uj ) = 0；即，对所有 i 表 j ，干扰项之间 
是相互独立的。 

(3) var ( u ,) = a 1 ;即，对任意&的取值， M ,. 的方差 
都是非负常数 V ,这也是同方差性的假设。 

(4) cov («, , X k ) = 0;即，干扰项和解释变量是相互 
独立的，彼此不相关。 


在这些假设下 ,() LS 估计是最好的无偏估计，“最好”是因为 
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在所有线性无偏估计中.其方差最小。 

异方差性的问题通常与截面数据(描述整体的单元群在 
一个特定时间点的数据）相关，自相关作用常常与时间序列 
数据(描述实体在一段时间内的数据）有关。而虚拟变量在 
研究截面数据和时间序列数据里，都扮演着非常重要的角 
色。在截面数据中，虚拟变量可以用来估计各群体之间的差 
异或者加人某一群体后，是否会改变其他解释变量的效应问 
题。同样，在时间序列数据中，虚拟变量可以用来确定两个 
时间段是否有区别，或检验不同时间段上，其解释变量所造 
成的影响的稳定性如何 ( Gujarati , 1970)。由于虚拟变量通 
常既可以在截面数据分析也可以在时间序列分析中定义观 
测组，因此，研究人员必须谨慎处理这两种情况下的异方差 
问题。在截面分析中，我们可以通过指定虚拟变量以获得组 
差异，但是，其前提是那些潜在的异质组的信息已经被合并 
了。如果这些群体的误差方差显著不同（即，如果我们违反 
了同方差性的假设），那么单个回归系数的显著性检验将会 
变得很不可靠。像这样类似的问题也可能在时间序列模型 
分析中出现，因为虚拟变量常用于检测两个或多个时间段的 
系数的稳定性，所以，如果误差方差在不同时间段中呈现出 
显著区别，那么异方差会使回归检验非常有争议 ( Maddala ， 
1992)。有关假设的讨论、违反假设的种种后果的详述以及 
有关处理这些违反假设的种种补救方法，在很多中级统计教 
材里都有提及。因这些均与虚拟变量的使用有关，所以我也 
会在本书中予以讨论，有关异方差性及自相关作用的问题, 
我们会在后文详述。 

通过记，即多重相关系数的平方.我们可以评估回归模 
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型对样本数据的整体拟合度。<检验通常用来检验单个回归 
系数的统计显著性，为什么我们用 r 分布而不是 Z 分布呢？ 
其原因在于，我们一般不知道总体方差^的值。因此.我们 
只能用样本的误差方差作为对总体方差的估计。当检验零 
假设，即其效应或局部效应是否等于0时， f 检验可以把参数 
估计的比率降低到其标准误。 

由于三个自变量均包含在统计规范中 ，玖、 B 2 、B 3 可用 
来估计足、 X 2 、 &对7的局部效应。一般来说，局部效应 
不等于当 y 只对一个自变量回归时产生的二元效应，因为在 
一个给定的规范中，自变量通常相互关联或与 Y, 共协方差。 
当其中一个自变量（例如，X,,)与其他一个或多个自变量完 
全相关(即，该自变量是其他一个或多个自变量的线性函数） 
时，那么该样本估计是不确定的。直观地讲，我们可以把这 
种不确定性归因于缺乏“唯一的” 信息: “足，分布中的信息直 
接照搬方程的右边所包含的统计信息，当X,,没有提供任何 
净分布信息(例如，局部信息或唯一信息）时，我们不可能估 
计 Xi ，对 Y 的净效应(不论局部或者唯一）。”这就是完美的多 
重共线性。从统计学上讲，当估测偏回归系数时，在我们可 
以明确“其他自变量被控制了”的意义后，该不确定性就可以 
被解释了。在统计学上，“自变量被控制”需要我们将与模型 
中其他自变量有关的变异从兄的分布中移除。由此可见， 
统计上的“控制”是一个分割变异的过程。在我们的样本回 
归函数中(方程 1. 2)，当确定 B, 时，我们会移除 X 2 , 和 X 3 , 对 
Y 的影响。换句话说 ，当不 ，和 X 3 , 不能在样本中变化时，我 
们就看不到那些与 x 2 , 和；^的变异相关的部分体现在 y 或 
，的分布里。因此，在估计对 Y 的偏效应时，我们不可 
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以把那部分变异，即与 x 2 ，和 x 3 ，的变异相关的部分变异考虑 
在内。从本质上来讲, X ,,对 y , 的偏效应是基于两个残差分 
布——移除了 x 2 ，和 X 3 , 对 Y , 的线性效应后的 Y , 的残差分 
布，以及移除了 x 2 , 和；，对 X ,,的线性效应后的 X ,,的残差分 
布。当存在完美的共线性时 ，兄, 的残差分布是一个常 
数——0。 

当我们把虚拟变量加人回归方程中后，回归估计的逻辑 
是不变的，即我们将根据因变量来预测条件均值，也就是说. 
通过把给定数值的自变量代入方程而得出 Y 的均值。其区 
别在于，虚拟变量的编码通常代表每个不同组群，或者根据 
是否有某个或某些特征，将虚拟变量分成有或者没有两种状 
态。因此•预测一个虚拟变量编码的特定组合的 Y 的期望值 
与预测组群的均值没有什么差别。该思想也同样适用于自 
变量是连续的时候。此时.“控制自变量”的过程对解释虚拟 
变量尤为重要。 
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对分类数据编码要求构建完全穷尽且相互独立的类别。 
该原则同样适用于虚拟变量的构建。我们需要构造一个足 
够庞大的虚拟变量集合，从而将原先在定性范围内的所有信 
息都尽量表达出来。分类变量可以是两分或者多分的 。一 
个有 j 个类别的分类变量需要_；_ 1个虚拟变量来获得初始 
差异集合中的所有分布信息。因虚拟变量通常为二分变量， 
所以我们通常用二进制编码 ( o . 1) 进行区分。所有在特定类 
别中的成员会被分配到代码1中，其他不在该类别的成员被 
分配到代码0中。根据这个编码原则，我们为一个给定的大 
类构造了一系列虚拟变量，原因在于在真实数据中，每个受 
访者只可对应大类中一个且只有一个编码为1的虚拟变量。 
我们可以把二进制编码想象成电气开关:编码1亮起时，表 
示一个给定类对一个受访者信息(例如，他/她是某一特定组 
群的成员或者他/她具有某一特定的特征）“开启”。对那些 
非成员来说,虚拟变量会切换到“关闭”状态（表示某些特征 
不存在）。 

我们常用7’ 一 1个虚拟变量来描述一个包含 j 个类别的 
定性变量，这样做的原因在于其直接符合古典线性回归的模 
型，自变量没有完全共线性的假设 要求。 也就是说，在一个 
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模型里，任何解释变量都不可能与其他解释变量存在完美共 
线关系。那么，假设以下例子中，我们用虚拟变量来表示种 
族。其中，被编码为1的虚拟变量（黑人）代表非洲裔美国 
人，若我们再加人第二个虚拟变量（白人)使其代表那些非非 
洲裔美国人,则在该模型中，就潜在地构造了两个自变量之 
间的完全线性关系，因为 BLACK = 1 — WHITE 。 所以，白人 
这一虚拟变量对估计是多余且不必要的。 

当原先的变量如之前提到的种族(黑人、白人）只有两类 
时，我们只需一个单一的虚拟变量便足以捕捉全部信息了。 
其中，没有用虚拟变量命名的类为参照组。如果原先的变量 
有两个以上的类,虚拟变量的数目就取决于在分析中需要比 
较的不同类的数目。以职业为例，在普查里，其通常以12位 
数编码来衡量。在该例中，我们以第12类作为参照组，那 
么,最多可以创建11个虚拟变量。为了解释得更清楚、更容 
易理解.我们将排除农场管理人员和雇农，并把剩余的组归 
为一类，此时，我们只需考虑六个类别： OCC , (高级白领，如 
专家、经理等 ）、 OCQ (初级白领，如文员、推销员等 ）、 OCQ 
(技术工人,如木匠、水管工人、电工等）、 occ 4 (操作工人，如 
焊工、织布工人及在生产制造中的装订工人）、 0 CC 5( 非家庭 
服务工作者.如理发师、守卫、实习护士等)及 OCQ (劳工，如 
渔民、锯木工人、货车司机等）。根据前述的规则可知，这组 
含有六个详尽且互斥的类别需要五个虚拟变量来表达原先 
定性变量的所有信息，其中.五个虚拟变量分别表示不同的 
类，剩下的第六类，即被排除的类(未用虚拟变量命名所表示 
的类)为参照组。 
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第1节 I 选择参照组 


在为一些分类变量编码时.我们必须选择参照组，即我 
们想把哪个或哪些组作为要比较的类。对每个分类变量，我 
们必须指定一个类作为参照组。在我们的例子中，如果选择 
“白人”作为参照组，那么虚拟变量“黑人”在二元回归里的系 
数就代表美国黑人相对于白人的平均收入是多少。换句话 
说，回归系数表达了黑人与白人之间的平均收入差异。那么 
如果以“白人”为参照组，则虚拟变量“黑人”在二元回归中的 
系数 B 可表示为 如下： 

■BblaCK = Y BLACK _ Y WHITE 

相反，如果非洲裔美国人为参照组，则白人为虚拟变量，此 
时，二元回归系数 B' 可表 示为： 

B WHITE = Y WHITE — Y BLACK 

不论哪类被选为参照组，平均收入的差异绝对值是不变的。 

为一个多分类变量选择参照组（例如职业）多少有些复 
杂。对于职业这一变量，其所有的虚拟变量的回归系数的估 
计都是相对于该参照组的。尽管我们可以使用任意一个组 
作为参照组进行回归估计，从而产生与其他类的比较 • 但是 
仍有些准则需要了解。以下这些准则对解释回归估计非常 



第 2 章构建虚拟变量 


有用。 

第一，参照组应该明确界定。用其他剩余类可能不是一 
个好的选择，因为该选择无法确定“剩余”类的组成是什么。 
而且，我们感兴趣的组差异可能无法通过这些更相似的类与 
该剩余类的比较而反映出来。因此，选择一个明确的参照基 
准，可以将组差异清楚地表现在方程中，这点非常重要。 

第二，当定性类别中存在隐含的次序关系时（例如职 
业），有些研究人员通常选择最低或者最高级别作为参照组， 
而其他人更倾向于选择中间的类。尽管前者可以提供一系 
列系数估计来解释那些相对最低或最高级别的类，但是后者 
却可以减少那些粗心的研究者光抓住一个统计上显著的系 
数(例如职业)而忽略了其作为一个多类别的预测因子，在整 
体上是否有着显著影响的可能性(该问题会在第4章结尾详 
细讨论)。 

第三，一个参照组要包含足够多的事件及信息，从而可 
以更加合理、准确地估计组群的均值。有时.研究者为了使 
其他类的信息保持“单一”，可能会选择只含少量观察值的类 
作为参照组。但是我们要明确，这个战略只可以用在参照组 
是高密度分布的类上，即在该变量所有的类中.其观测数最 
多或者为最多之一。 

读者需谨记在心的是，在统计层面上，参照组是可以任 
意选取的。假设参照组是研究者根据适当的解释和推理的 
过程选出来的，那么就不会有“错误”的选择。而在实际层面 
上,“最佳”的选择是最大限度地减少额外计算的数量，因为 
这些额外计算会产生最具实质性利益的信息。 

表 2.1 提供了如上所述的编码过程。对于种族这个变 
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量，我们选择“白人”作为参 照组; 对于职业，我们选择“高级 
白领”作为参照组。受访者为非洲裔美国人的被编码为1，白 
人受访者被编码为0。 OCQ 、 OCC 3 、 OCC 4 、 OCQ 和 OCCs 
是五个虚拟变量.它们旨在捕捉变量职业的六类里的全部信 
息。 其中， OCQ 代表初级白领, OCC 3 代表技术工人， OCC 4 代 
表操作工人 ,00； 代表服务业工作者 ,00； 为劳工。对于职 
业.事件3、事件14和事件15均为0,因为这些事件的受访者 
都是高级白领。而我们又可看出，事件3和事件14所有变 
量的编码在表中均为0,原因在于，这两个事件的受访者均是 
种族和职业这两个定性变量的参照组中的成员，即他们都是 
从事高级白领职业的白人。 


表 2.1 种族及职业的虚拟变置的编码 


事件 

种族 

职业 

黑人 

occ 2 

occ 3 

0CC4 

OCCs 

occ 6 

1 

黑人 

初级白领 

1 

1 

0 

0 

0 

0 

2 

白人 

技术工人 

0 

0 

1 

0 

0 

0 

3 

白人 

高级白领 

0 

0 

0 

0 

0 

0 

4 

黑人 

操作工人 

0 

0 

0 

1 

0 

0 

5 

黑人 

劳工 

0 

0 

0 

0 

0 

1 

6 

白人 

初级白领 

0 

1 

0 

0 

0 

0 

7 

白人 

技术工人 

0 

0 

1 

0 

0 

0 

8 

白人 

服务业工作者 

0 

0 

0 

0 

1 

0 

9 

黑人 

服务业工作者 

1 

0 

0 

0 

1 

0 

10 

白人 

初级白领 

0 

1 

0 

0 

0 

0 

11 

白人 

操作工人 

0 

0 

0 

1 

0 

0 

12 

白人 

初级白领 

0 

1 

0 

0 

0 

0 

13 

黑人 

技术工人 

1 

0 

1 

0 

0 

0 

14 

白人 

高级白领 

0 

0 

0 

0 

0 

0 

15 

黑人 

高级白领 

1 

0 

0 

0 

0 

0 


所有隐含在种族和职业中的定性信息都可以被转化成 
可供计算的信息。通过转化，我们可以计算集中趋势、分散 
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程度、相关度及回归系数。我用_/一 1个虚拟变量而不是原先 
含有 J 类的分类变量，其中一个重要的原因在于，每一个虚 
拟变量可以从原先的度量中提取一部分信息。例如，每个虚 
拟变量记录着一个职业特征的存在与否(例如，1代表其劳工 
的职业特征存在，0则代表其劳工的职业特征不存在）。我们 
没有从根本上改变包含在种族或者职业的信息中的内容，我 
们只是选择了一个可替换的形式来表述这种信息。因此，只 
要我们可以调整对回归系数的诠释，使它们与自变量所隐含 
的测量性质相一致，那么就可以说，我们的统计基础非常坚 
实而且牢固。 



I 虚拟变 量 回归 

第 2 节 I 描述性统计 


分布统计 

由于虚拟变量通常与定性度量相关，那么那些关于各类 
别的频数及其所占比例的描述性信息就对描述变量分布非 
常有用。同样，集中趋势的两个最常用的度量——众数和平 
均值，也可以提供很多有用的信息。 

虚拟变量均值可以告诉我们被编码为1的类占所有分 
类的比例。回想一下，这个比例其实是一个相对频数，它是 
通过给定的分类事件数除以所有事件数 (《,./ n ) 得来的。让 
我们再回想一下那个计算均值的公式，即所有该度量下事件 
的数值的和除以事件的总数。假设所有的事件对一个虚拟 
变量只被编码成0或1，那么加和所有事件的数值与统计所 
有被编码为1的事件数是等价的。因此，对于虚拟变量，比 
例公式与均值公式是等价的。 

同样，对于包含连续度量的虚拟变量，其方差方程则与 
我们普遍运用的方差方程有关。 

( 2 ^ )/N- (S^ ， /W 2 = ri,/N - p) 

= P , — P ) = ft(l — ft ) 

[ 2 . 1 ] 
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若 X ,是连续的，方差公式为第一个方程等号左边的部分。 
当把同样的方程运用到虚拟变量中时， 变为 n ” 
即被编码为1的事件数。第二项均值的平方 （ SX ,_/ N ) 2 
变为被编码为1的事件的比例，如上所述，这两者也应该 
是等价的。因此，我们可以证明，虚拟变量的方差其实是 
被编码为1的事件的比例与被编码为0的事件的比例的 
乘积。 

当事件均匀地在两类之间分布时，虚拟变量的变异最 
大。现在，让我们来讨论些有关公众舆论的问题。“你是否 
支持为公共教育增加税收?”对于这个问题，当人们的意见均 
勻分布的时候，对税收政策持反对意见的最多。这时，选中 
任意两个都为“支持”的概率是最小的。当观点趋同时，即同 
意或者反对的概率接近100%时,意见的多样性（或者说变 
异)会随之下降。 

相关性 

研究者不仅对那些可以描述单变量分布的度量感兴趣， 
还对变量之间的相联度量感兴趣。尤其当要用列联表分析 
来调查定性变量之间的关系时，我们会通过检验离散变量分 
类的均值差异来估测定性和定量变量之间的关系。最初，我 
们会将其限制到三个度量里，因此，我们可以看到按职业和 
种族分类后的平均收人差异(见表 2. 2) 。 



虚拟变量回归 


表 2 . 2不同种族、职业下的收入平均值和标准差 

平均收入 黑人的百分比 


种族 

白人 

7821. 90 


(N = 2290) 

(4974. 8) 


黑人 

4619. 00 


(N= 921) 

(2428. 1) 


职业 

高级白领 (OCCD 

10702. 10 

C 0 

(N = 644) 

(7166.5) 

0 . o 

白人 

10960. 30 


(N = 602) 

(7273. 2) 


黑人 

7001. 80 


(N= 42) 

(3874. 5) 


初级白领 ( occ 2 ) 

7680. 90 

17.1 

(N = 337) 

(4228. 7) 

白人 

8061. 30 


(N= 279) 

(4462.6) 


黑人 

5850. 80 


(N= 58) 

(2039. 9) 


技术工人 (OCC 3 ) 

6945. 00 

17.7 

(N=810) 

(2864. 9) 

白人 

7334. 70 


(N= 665) 

(2786. 9) 


黑人 

5157. 80 


(N = 145) 

(2526.0) 


操作工人 (OCC 4 ) 

5553. 90 

38.9 

(N== 788) 

(2454.1) 

白人 

6085. 30 


(N= 481) 

(2414. 6) 


黑人 

4721. 40 


(N = 307) 

(2281. 5) 


服务业工作者 (OCCs) 

4434. 4 

51.2 

(N= 287) 

(2352. 0) 

白人 

4805. 6 


(N= 139) 

(2626. 5) 
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续表 



平均收人 

黑人的百分比 

黑人 

4085. 8 


(N= 148) 

(2008. 3) 


劳工 (OCC 6 ) 

4090. 0 

64.0 

(N= 345) 

(2020. 1) 

白人 

4777. 30 


(N= 124) 

(1900.1) 


黑人 

3704. 30 


(N = 221) 

(1986. 6) 



通过对表 2. 2的描述性分析，我们会发现三个非常明显 
的趋势 :第一 ，黑人的平均收人比白 人低; 第二，从高级白领 
到劳工，平均收人是逐渐减 少的； 第三,从高级白领到劳工， 
黑人的比例是逐渐增加的。现在，我们必须寻找合适的方法 
来总结这三个二元关系，检验它们的显著性，然后通过控制 
其他相关因素来估测这些关系。 

我们已知虚拟变量的均值和方差均和 A 有关，那么，建 
立在样本方差和协方差上的相关度量也和虚拟变量的比例 
分布有关。大家知道，相关系数常用来测量变量之间相联程 
度,且建立在两个变量之间协方差上的度量又和两个变量分 
布的离散程度有关。因此.我们可以说，两个定性变量度量 
的相关性对原始分布中方差的数值很敏感，因为虚拟变量的 
方差是九的函数，且所涉及的虚拟变量相关性的强度会反映 
各类别出现频数的相对大小。 

表 2. 3是对虚拟变量种族1职业及因变量收人的零阶相 
关性系数的估测,最右列列出了每个虚拟变量与收入的相关 
性。第一个数值 (一0.313) 表示黑人和收人的关系。负号说 
明虚拟变量编码为1的黑人与低收人相关，即美国非洲裔男 
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性的平均收人比其他男性的平均收人低。通过对相关系数 
加平方，我们可以算出收人的样本方差有多少是可以被种族 
解释的。从而我们知道，大约有10%的收人方差可以通过种 
族间平均收人差异所解释。 


表 2. 3种族、职业和收入之间的相关性系数 



初级白领 

技术工人 

操作工人服务业工作者 

劳工 收入 

(OCCs) 


(0 CC 2 ) 

(OCC 3 ) 

(0 CC 4 ) 

(OCCs) 

黑人 

occ 2 

■0. 087 ***- 

-0. 139… 

0. 131 … 

0.157*** 

0. 272 -0.313 … 

(初级白领） 

occ 3 

一 

-0.199 ***- 

-0.196 … 

-0.108***- 

0.119** - 0. 057 •** 

(技术工人） 

occ 4 


- 

-0.328*** 

-0. 181 …- 

■0.199 … 0.007 

(操作工人） 
0 CC 5 




-0.178 - 

0. 197 — -0. 166 *** 

(服务业工 
作者） 

OCCe 




— 

-0.108***-0. 170*** 

(劳工） 





-0.211 •“ 

平均值 

0. 106 

0.250 

0.244 

0.089 

0. 107 6890 

标准差 

0. 308 

0. 433 

0.430 

0.285 

0. 309 4622 


注： ™ 表示相关性系数在 0. 001显著性水平上统计显著。 


由于在职业分类中需要多于一个的虚拟变量来捕捉职业 
的所有信息，因此我们用五个相关系数来描述职业与收人的 
关系.其中，每个都是针对一个特定的职业类别。这五个零阶 
相关系数的任何一个都可以估计该指定类(例如 , OCCs 中服务 
业工作者)同其他所有类合并的收人差异。例如， OCQ 和收人 
之间的相关性系数为 _0.1 TO ， 它代表服务业工作者比非服务 
业工作者 ( OCQ + TO + OCQ + OCQ + OCC ；) 的工资低。当 
我们把该系数平方后，就可以估计，有百分之多少的收人方差 
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是由于从事某一职业的男性比不从事该职业的男性挣得多或 
少这一事实引起的。这里.我们可知，有 2. 89%的收人方差是 
由于服务业工作者比非服务业工作者的收人少引起的。还需 
注意的是， TO (技术工人与非技术工人)和收人之间的相关 
性很小且不显著。从该度量可看出，技术工人与非技术工人 
的平均收人没有显著的不同，该发现与技术工人不论在职业 
还是收人分布上都处于中间水平的事实一致。 

其余各列的相关性表示每两个虚拟变量之间的相关度。 
因为两个虚拟变量之间的相关度等价于9系数.又 <P = 
( xVn 〉 1 2 ,所以它们也与/有关。任意两个度量之间的关 
系都可以在一个2 X 2的表格里表示出来。我们看到表格第 
一行涵盖了黑人与任意职业类別的相关性信息。一方面，我 
们发现与黑人呈现了负相关，这说明黑人在初级白领里 
的比例比在其他职业类别中 的小; 另一方面，黑人与 OCQ 、 
0«^和 TC 正相关，这说明黑人在操作工人中的比例 
(38. 9%)、在服务性工作者中的比例 (57. 2%)和在劳工中的比 
例(64.0%)均比黑人不在操作工人中的比例(25.1%)、不在服 
务性工作者中的比例 (26. 3%)和不在劳工中的比例 （24. 3%) 
高。我们还可以从表格里看出，黑人与 OCQ (劳工)的相关性 
最强，其原因在于黑人在劳工中的比例是最大的。 [2] 


偏相关 

当其他自变量被控制时，我们可以通过偏相关系数估计 
一 个因变量和一个自变量之间的关系。表 2. 4记录了当不 
断有自变量被控制时， OCQ (初级白领）和收人 ( Y ) 之间的一 
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系列偏相关系数。 

表 2. 4职业虚拟变置和收入的偏相关系数及半偏相关系数 


y, occ2 
ry, occ2. occ3 
ry, occ2. occ3» occ4 
y. occ2. occ3, occ4, occ5 
r y> occ2. occ3. occ4, occ5. occ6 


=0. 057 … 

= 0. 060*** 
= 0.011 
=—0. 068*** 
=—0. 171*** 


偏相关系数半偏相关系数半偏相关系数的平方 


r y , occ2.occ3, occ4. occ5. occ6 —0.171*** —0.191*** 0.036 

r y , Occ3.occ2.occ4, occ5. occ6 ~0. 271 ― _0. 294 ••• 0. 087 

occ4.occ2.occ3.occ5.occ6 ~0.369 —0.387*** 0.150 

fy, occ5.occ2, occ3. occ4. occ6 — 0.337*** _ 0.357*** 0.127 

r y . occ6.occ2. occ3, occ4, occ5 — 0. 378*** —0.394*** 0.155 


注： w 表示相关性系数在 0. 001 显著性水平上统计显著。 


鉴于0€(^和收人之间的零阶关系是根据初级白领与其 
他类的工作者的平均收入相比较而来的，那么一阶偏相关系 
数就是控制了技工这一类得来的。由于技工现在被 
控制，那么这个偏相关代表初级白领与除去初级白领和技工 
这两类工作者的平均收人差异的相关性。由于下一个系数 
控制了两个自变量 （ OCC 3 和 OCC 4 , 即技术工人和操作工 
人），因此是一个二阶偏相关系数。在该例中，偏相关系数并 
不显著，这说明了初级白领的平均收人与除去了其本身以及 
技术工人和操作工人后的工作者(高级白领、服务工作者和劳 
工)的平均收人没有显著差别，这个结果的产生无疑是由于高 
收人组与低收人组是通过它们的中距均值求得的。随着越来 
越多的职业类别被控制后，偏相关系数的阶数越来越高，数值 
为负的程度越大。最高阶数(或称“四阶偏相关”)控制了所有 
的职业虚拟变量，结果显示，初级白领的平均收人明显低于高 
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级白领(参照组)的平均工资，此时，高级白领是唯一未被控制 
的组。表 2. 4的下半部分为我们呈现了职业虚拟变量的所有 
四阶偏相关系数。每一行的偏相关系数都表示一对职业虚拟 
变量和收人之间关系，且该相关系数是通过消除其他变量的 
影响，比较高级白领(参照组 ） 和指定职业类得来的。从上往 
下看.越往下，偏相关系数负的程度越来越大,这是因为当劳 
工和高级白领相比时，其收人差异的强度是最大的，而当初级 
白领与高级白领相比时，其收人差异是最 小的。 

表 2. 4的中间列和右边列记录了半偏系数和半偏系数 
的平方。我们知道半偏相关系数是建立在相关性和回归之 
间的有益桥梁。用于建立偏相关系数的、不断消除其他变量 
影响的剔除过程与用于建立偏回归系数的过程一样，会影响 
因变量和自变量的 分布。 然而，如果用半偏相关系数，本身 
对因变量有一定影响的自变量就不会因为其被控制而将这 
部分的影响剔除 (Cohen Cohen , 1983)。半偏系数的平方 
表示一个自变量对兄的可解释方差的唯一贡献。在这里， 
“唯一贡献”是指，的方差只归因于一个自变量，而不与其 
他被控制的自变量分享。例如，表示收人与 ocQm 第一个 
半偏相关系数的平方数值 0. 036是在控制了 OCQ , 0 CC 4 、 
之后得岀的。通过定义初级白领是与高级白 
领不同的职业类别后，我们可以解释 3. 6%的收入方差。换 
句话说， 3. 6%的收人方差可被解释是基于初级白领的平均 
工资比高级白领低这一事实。同样， 15. 5%的收人方差可以 
通过指定劳工与高级白领之间的收人差异来解释。因此，我 
们可知，保持其他条件一致，组间差异越大，所得到的可解释 
方差就越大。 [3] 




第 5 章 

虚拟变量回归 
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虚拟变置回归 


在本章中，我们会探究四个含有虚拟变量的回归模型。 
最简单的模型可表述为因变量收人为一个虚拟变量的线性 
函数。第二个模型和第一个相似，表述了收人为一个解释变 
量/自变量的函数，不同的是，在该模型中，自变量是职业，而 
在第一个模型中.自变量是种族。然而.由于职业是多类别 
的，即其中含有两个以上的类，因此，我们需要构造五个虚拟 
变量。在第三个模型里，两个定性变量均会加人，因此我们 
可以讨论种族之间的收人差异是否可在与种族有关的职业 
差异里体现。在最后一个模型中，我们会进一步扩展自变量 
的数目，即定量的解释变量，连同职业和种族的虚拟变量都 
被包含在其中。 

通过估计二元回归方程，我们可以观察当自变量数目从 
少到多时，因变量期望值的变化。从而体会，回归方程所代 
表的因变量期望值 E ( Y ,) 由一个单一点进一步拓展到一系列 
连续数值构建的一条线的过程。其中，线上的每一个点都估 
计了一个特定的 X ,条件下的的期望值，表示为 E ( Y ,| X fc ) 0 
此时，期望值是连续的，原因在于，叉^本身是一个连续度量， 
其代表了无限的潜在数值。 

当我们处理虚拟变量时，自变量为只有两种可能的数值 
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的离散度量。那么，在建模时，尤其是为含有一个虚拟变量的 
连续因变量构造函数时，我们无法作出回归线。因此,我们可 
对每个可能的数值计算出一个的期望值， S 卩，当 1 时， 

得到一个期 望值; 当 D „= 0 时，再得到一个期望值。这些估测 
出来的数值相当于条件均值，即组群 j 的均值兄。 

请看下面三个 模型： 

模型 1: = /( 种族）= po + P ， BLACK + M , 

模型2: Y ; = /( 职业）= ^+ p 1 OCC ,+ p 2 OCC 3 
十氏 OCC 4 + p 4 OCQ 
+ (3 s OCQ + Ui 

模型 3 ： y, = /( 种族，职业 ）=BLACK 

+ p 2 OCC2 + 恥 OCC3 
+ 氐 OCC 4 + ^5 OCQ 
+ p6 OCC 6 + Ui 



第 1 节 I 对含有一个虚拟变量的 
模型进行线性回归 


在模型1里，通过收人对虚拟变量黑人进行回归，确定 
种族是否为收人的一个重要预测因子。表 3.1 列出了其回 
归结果。对这些连续和离散的自变量回归系数的合理解释 
要看常数项 ( b 。）， 其代表当所有的自变量都为0时， y , 的期 
望值; 同时，还要看啟，它代表&每变化一个单元, y , 期望值 
的变化。当不是连续的时候, Y , 的分布也是连续的，因此，其 
回归系数也可表示为斜率。相反，当 不为 虚拟变量时， Y , 的 
变化是随每次艮单位的变化而变化，与之前不同的是，该变 
化基于是否为指定类别的成员的相关定义，因为虚拟变量一 
个单位的变化(从0到1或者从1到 0) 反映了它是否属于某 
个指定类别。 

在此例中.虚拟变量黑人的回归系数是负值。这说明， 
黑人的预测收人比白人的预测收人少 3202. 90美元。 y , 的 
预测收人是通过简单的加减计算出来的。当 BLACK = 1 
时，预测收人等于氏+战，或者说 7821. 9 — 3202.9 = 4619 
美元； 当 BLACK = 0时，其预测收人就等于 B 。 或者 7821. 9 
美元。读者可以发现这些预测值与表 2. 2中所列出的组群 
均值相等。 
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表 3.1 模型 1 、 模型 2 、 模型 3 的回归结果 




模型1 

模型 2 

模型 3 

常数 


7821. 9 

10702. 1 

10811.4 


(91.9) 

(160. 8) 

(158.9) 

黑人 


—3202. « 


-1676.0 


(171.6) 


(172.4) 

occ 2 



-3021.2 

-2842. 1 



(274. 4) 

(271.1) 

occ 3 



-3757.1 

一 3566. 4 



(215.5) 

(213.3) 

0CC4 



-5148. 2 

-4604. 5 



(216. 8) 

(220.9) 

0 CC 5 



-6267. 7 

(289. 7) 

-5512.7 

(295. 9) 

OCC 6 



-6612. 1 

(272.3) 

-5647. 8 

(286. 2) 

R 2 


0. 09792 0. 22400 

0. 24624 

F 


348.3 

185.0 

174. 1 

R 2 的增量 (J?i- 埒) 



0. 148 

变化过的 F 



126. 1 

模型2回归系数的方差、协方差矩阵 




OCC 2 

OCC 3 

OCC4 0 CC 5 

OCC6 

occ 2 

75309. 07 




0 CC 3 

25870. 70 

46439. 50 



0CC4 

25870. 70 

25870. 70 

47013. 76 


0 CC 5 

25870. 70 

25870. 70 

25870. 70 83922. 03 


OCCe 

25870. 70 

25870. 70 

25870. 70 25870. 70 

74162. 67 


注: 括号里为所估计的回归系数的标准误。 


虚拟变量的显著性检验要遵循标准化过程。黑人的回 
归系数测量了黑人的期望收人相对于白人如何。因此，黑人 
回归系数的标准误提供了白人与黑人的期望收入差异的标 
准误。当检验零效应即由组群差异引起的期望收入差异不 
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存在这一零假设时4检验为回归系数与标准误的比率。同 
样，由于模型1包含了一个单一自变量，那么 F 检验在此也 
是对零假设的检验.其值为 r 值的平方。 J ? 2 说明，种族差异 
解释了大约10%的收人中的方差，这一点在之前的零阶相关 
系数检验中就已得知。 

该例描述了当自变量为虚拟变量和自变量为定量变量 
时，其回归结果解释的相似与不同。常数项估计了参照组 
(白人)的期望收人;•^估计了虚拟变量的特征对期望值的影 
响(例如，黑人对其期望收人的影响），该影响捕捉了黑人与 
白人之间的收人差异。因此，零假设 （ft = 0) 可表 述为： 
Ho : /^BLACKS — /^WHITES = 0 且对该模型的 B , 的 r 检验和对模型 
1的 F 检验是相同的。[幻 
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第2节 | 对含有多个虚拟变量的 
模型进行回归 


模型2估计了收人作为职业的函数，其中职业由五个虚 
拟变量表示。回归结果显示在表 3. 1的中间列。与模型1 
的解释一样，常数项 10702. 1为高级白领(参照组）的期望收 
人。其他的回归系数估计了从事相应职业类相对于高级白 
领的差异程度，从 OCQ 的回归系数可以看出，初级白领收人 
平均比高级白领少 3021. 20美元，为 7680. 90美元。相比之 
下，劳工平均比高级白领少挣 6612. 10美元，只有4090美元。 

用一系列虚拟变量比用单一虚拟变量更能捕捉各职业 
组之间的差别信息，那么相应的职业对收人影响的显著性检 
验应该为该模型的 F 检验。模型2的零假设可以写成卩：= 
(^ = |3 3 = (3 4 = (3 s = 0, F 检验是检验所有职业的期望收入是 
否都是一样的。另外，因为 F 检验可以表达为 J ? 2 与 々个自 
由度的商和 1 一 R 2 与 IV — 々一 1 个自由度的商的比率，其中， 
々等于自变量的数目，因此， F 检验还可以看成是对 R 2 的显 
著性检验。因此,拒绝零假设说明一个非零的收人方差可被 
受访者的职业所解释。基于模型2的回归结果，我 们有： 


F 5： 


0. 22400/5 


(1-0. 22400)/3205 


185.0 
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该数值在 0. 001的显著水平下非常显著。 W 建立了职业的统 
计显著性之后，我们现在可以转移到对单个回归系数的 f 检 
验上，从该检验我们可以看到，每个职业类的期望收人都与 
参照组呈现出显著 不同。 
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第3节 | 估计类别之间的差异 


t 检验同虚拟变量的回归系数一起，使我们可以检验相 
对于参照组，某职业类别带来的影响的显著性如何。然而， 
我们无法立即知道所比较的类别之间是否不同。例如， 
ocq (劳工）的回归系数负的程度最大，因此其期望收入也 
就最低。但是，我们如何知道劳工的期望收人确实是比服务 
业工作者或者操作工人低呢？ 

因为 ft = E(Y, I OCQ = 1)-E(Y, I ref ), 所以期望收 
入在某两类之间的差异等于它们的回归系数之差 (ft —氏）， 
其中， ft 代表第7类的虚拟变量的回归系数，同样，私代表第 
々类的虚拟变量的回归系数。为了检验 OCC 4 和 OCC « 的差 
异，即比较作为操作工人和劳工的差异，或者说，相对于劳 
工，操作工人所带来的影响，我们就必须用一个《检验来估计 
回归系数之间的 差异： 

t= (马 _ B *)/[ var ( B ,) + var (氏） 一 2 cov ( B , B t )] 1/2 

[3.1] 

因为回归系数方差正好是标准误的平方，所以它们本身就容 
易得到。另外，许多统计软件包都有计算回归系数的方差、 
协方差矩阵的选项，研究者可以更加轻松灵活地完成这些额 



36 


虚拟变量回归 


外检验。 [6] 

将 00 ： 4 和 OCC s 的估计值代人方程 3. 1 ，我们有： 

« = -6612.1-(-5148. 2) / 

[74162. 7 + 47013. 8 - 2(25870. 7)] !/2 
=-1463. 9/263. 5 =-5. 56. [3.2] 

在常用显著性水平 a = 0. 05下, z 的临界值为土 1. 96,从而我 
们可以推断劳工带来的影响确实与操作工人带来的影响不 
同，也就是说，劳工和操作工人确实有不同级别的平均收人。 
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第4节 | 第二个定性度量的加入 


当我们回头看表 2. 2中组群的均值时，可以发现，从高 
级白领到劳工，下降的不仅仅是平均收人，同时还有白人的 
比例。我们想知道，当控制了职业的收人差异时，种族差异 
是不是还会在收人中存在。要回答这个问题,就需要检验虚 
拟变量黑人的偏回归系数。表 3. 1最右列的模型3给了我 
们一个比较满意的答案。从常数 10811.4 可以得出当所有 
自变量为0时的期望收人，或者说，该常数即白人高级白领 
的期望收人。黑人的回归系数 一1676. 0表示，在我们考虑了 
同职业类别有关的收入方差和黑人在各职业类别中不是均 
匀分布的事实后，黑人的平均收人比白人少1676美元。尽 
管这个值比模型1中估计的小一些，但是该估计的收入差异 
在 0. 001显著性水平下非常显著。黑人的回归系数强度随 
职业由高到低逐渐下降，该现象说明黑人的平均收人比白人 
低的一个原因在宁，黑人大体上都集中在低收人职业类别 
里。同样,如果控制了收人和职业分布中的种族差异，偏回 
归系数连同职业虚拟变量一起，可以估计出每个指定类别的 
成员对期望收人的影响大小。 

为了检验控制了职业后的种族局部效应或者控制了种 
族后的职业局部效应是否仍在统计上显著，我们还要进行 f 
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检验。另外，与其单靠 F 检验来检验整个方程，不如在控制 
了其他变量后，用增量 F 检验来检验一个或一组分类变量的 
解释功效。例如，我们可以把模型3看成模型1和模型2的 
结合，我们在模型3里加人了代表职业类别中种族差异的虚 
拟变量。和之前一样，职业定位的解释功效是由一组虚拟变 
量而不是一个虚拟变量来捕捉的，因此，我们可以通过比较 
模型1和模型3的记值，或者平均回归平方和来估计职业 
的分布。零假设在这里可表亦为氏 = = ft = 氏 = ft = 0, 
换句话说，一旦我们控制了收人和各职业类别中的种族差 
异，期望收入在所有的职业类别中都是相等的。该 F 检验的 
公式可表述为： 


(1 — i?|)/(N — k 3 — 1) 

其中，圮是模型3 的记值 ，圮为模型1的茫值， N 为事件 
数目 A 和 h 分别为模型1和模型3里自变量的数目。分子 
部分表明了相对于模型1和模型3自变量的数目差异，由职 
业类别影响所带来的铲增量。分母部分为当种族和职业都 
包括在内后，所剩的、不能被解释的方差的比例与相应的自 
由度的商是多少。在该例中，加上从 OCQaOCCe 观测所得 
的记增量为 0. 14832,然后我们还需算出其除以五个自由度 
后所得的值。因此，在控制了种族后，用 F 检验算出职业类 
别的显著 性为： 


F = (0.14832/5)/(0. 75376/3204) = 126. 1 
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第5节丨期望值 


由于种族包含两类,职业包含六类，那么他们一起可以 
生成共12个不同的组群。模型3针对这12组群估计了他们 
的期望收入。这些估计值和12个组群的均值相等，即与各 
个种族在每个职业类别中的期望收人均值相等。通过用表 
3.2 中描述的回归系数集合，读者可以自己计算出各组群的 
收入期望值，然后和表 2. 2中列出的数值进行比较。表 2. 2 
中列出各组群的期望值是根据模型1估计出的种族参数，或 
者是模型2估计出的职业类别参数所得出的。和之前的结 
果不同的是，从模型3算出来的12个组群的期望收人和表 
2.2 中的数值非常不匹配，这是为什么呢？ 

这是由于在模型1和模型2中，我们把所有检验限制在 
一维中，即种族或者职业。当将观测拓展到模型3时，我们 
其实是基于一个简单假设，即“黑人对各职业类别的影响是 
一样的(例如，黑人和白人之间的期望收人有差异)”和“职业 
间的收人差异对黑人和白人也是一样的”。我们知道，当计 
算职业类别中黑人和白人的期望收人有差异时，这个假设已 
经开始奏效，即不论职业，黑人和白人工作者的差别总是 
1676(5, 的 值）; 不论种族，服务业工作者和高级白领之间的 
差异总是一 5512. 7 (氏 的值）。这种等价性影响是模型阐述 
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的结果。 


表 3. 2模型3的收入预测值 


Blacks Whites 


OCCi 

B 0 +B 1 = 

9135. 4 

■Bo = 

10811.4 

occ 2 

Bo Bi + B 2 

= 6293. 3 

Bo + JB2 

= 7969. 3 

occ 3 

Bo + Bj + B 3 

= 5569. 0 

■B 。 +B 3 

= 7245. 0 

OCC 4 

Bo ~f* Bi 4* B 4 

= 4530. 9 

Bo - \~Bi 

= 6206. 9 

OCC 5 

Bo 4- Bi B 5 

= 3622. 7 

B 0 -hB 5 

= 5298. 7 

OCCfi 

Bo B\ Be 

= 3487. 6 

Bo 4 - Be 

= 5163. 6 


当把简化过的假设加人到模型3的规范中后，经验上是 
否行得通呢？事实上，通过了解各组群的期望收入与表 2. 2 
中组群均值差异，我们可能想改变这个设定。接下来在模型 
4中，我们会提供一个比较正式的检验，其结果会告诉我们哪 
个模型更好，是模型3还是允许差异效应（例如，交互作用） 
的模型。 
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第6节 i 在模型设定中加入定量变量 


用回归分析的好处是，即便一些自变量是分类变量，建 
模过程还是非常灵活的。基于这点，我们会将最初的模型限 
制在虚拟变量回归因子中，这样读者就可以习惯虚拟变量回 
归系数的解释方法了。在该部分，我们准备把定量和虚拟变 
量回归因子都加人观测中。因此，我们提出了模型4——期 
望收人是种族、职业、教育和工作任期的函数。 

模型4: Y , = /( 种族，职业，教育，工作任期） 

= (3o + Pi BLACK + j^OCQ -|- P 3 OCC 3 
+ p4 0CC 4 + P 5 OCQ+ PeOCQ 
+ 决 EDUC + 氏 TENURE+ u, 

EDUC 和 TENURE 都是用年来测量的定量变量。由表 3. 3 
可见模型4的回归结果。 

我们可以看出，该模型估计结果的常数比之前的估计都 
小。更重要的是，模型设定的变化也改变了其实质性的意 
义。现在的常数估计的是那些没受过教育且工作任期为0 
的白人高级白领的期望收人，这些特征几乎是不可能存在 
的。虚拟变量黑人的回归系数现在表示当把职业、教育和工 
作任期这些对收人方差有影响的变量剔除后，黑人和白人之 
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间的期望收人差异 (1188. 10美元）。虚拟变量职业的回归系 
数估计了在控制了其他自变量之后，每个职业类别相对于参 
照组的期望收人的净差异。比如，初级白领平均比高级白领 
的收人少 2316. 10美元等等。同样，当保持种族、职业和教 
育不变时，每增加一年的工作任期，收人可增加 84. 70美元。 
对于教育，每增加一年的教育经历，期望收入会增加282 
美元。 

由于另外两个定量变量的加人，我们可以把模型4想象 
为，其生成了一系列的回归平面，并引人了截距、斜率和偏斜 
率的概念。在文中，我们还可以将虚拟变量的回归系数表示 
成不同的截距。由于斜率或者偏斜率只存在于定量自变量 
中，因此，与 EDUC 和 TENURE 有关的回归系数提供了对偏 
斜率的估计。图 3.1 描述-了模型4的回归结果。为了便于 
读者比较各组群之间教育和工作任期的截距、斜率和偏斜 
率，图 3. 1没有用三维空间图，而是用二维直线图对其进行 
了比较。又由于教育和工作任期均用年来衡量，则我们可以 
用同一度量对它们的局部效应进行比较。 

对于所有受访者，由于模型设定把估计值限制到教育年 
限和工作任期所带来的平均影响里，因此所有实线均有着相 
同的斜率 （282 美元/年），所有的虚线也有着相同的斜率 
(84. 70美元/年）。然而, Y 截距是可以因组群的不同而不同 
的，因此在图中有12个不同的截距。由表 3. 2可见,计算这 
些截距时.我们用了相同的回归系数组合。但是，因为回归 
系数本身随着模型设定拓展而改变，那么，计算出来的截距 
自然会与表 3. 2中列出的预测收人有所不同。从每个“按种 
族特征分类的职业组”(共12个)的截距中分出一个实线和一 
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个虚线，其分别代表教育年限和工作任期的偏 效应。 那么， 
对每个“按种族特征分类的职业类别”，我们就可以辨 别出： 
(1) 合适的 y 截距，即有0年教育经历和0年工作任期的给 
定组群成员的 Y 的期 望值; （2) 对于一个特定的组群，每增加 
一年的教育经历， Y 净增加的期望值(实 线）； （3) 对于一个特 
定的组群，每增加一年的工作任期， Y 净增加的期望值（虚 
线）。就如模型3,“各组群的等价性”仅是嵌人在模型设定中 
的一个假设，其经验性仍有待检验。 
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表 3.3 模型4的回归结果 


常数 

5761. 1 
(359. 0) 

OCC 6 

-3606. 8 

(306.4) 

黑人 

-1188. 1 

(169.4) 

教育 

282.0 
(23. 1) 

occ 2 

-2316. 1 
(261.8) 

工作任期 

84.7 

(6.6) 

occ 3 

-2343.7 

(223. 7) 

R 2 

0. 31459 

occ 4 

-3166. 6 

(237.5) 

F 

183. 7 

OCC5 

-3918. 5 

(299.9) 

R 2 的增量(相对于模型 3) 
变化过的 F 

0. 068 

159.7*** 


注 :括号 里为标准误。 

- 表示相关性系数在 0. 001显著性水平上统计显著。 
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上一章的模型是拓展了模型设定中的自变量数目和种 
类后得到的。我们知道，所有含多变量的模型都有一个简化 
的假设，即任意自变量直接对因变量的影响与该自变量通过 
其他自变量对因变量的影响是一样的。换句话说，我们没有 
包含任何交互项来检验职业、教育或者工作任期是否在黑人 
和白人之间有所不同。在本章中，我们将建立一个新模型， 
通过引人交互项来检验假设的有效性，然后来回答之前讨论 
的两个问题——违反回归模型假设的后果和用非独立检验 
做多重比较的替代方法。 

估计组群间的平均影响可以提供一个有用又简单的关系描 
述。然而有时，一个自变量( X ,)通过第二个自变量(乙）的分类 
或数值所产生的对因变量 ( Y ,) 的影响是不同的。当 X ,和兄之 
间的关系由变量乙决定时，我们就需要调整模型的设定，使 X , 
和 Y , 之间的关系相对于 Z , 而改变。检验这种差异效应需要用 
交互项，即包括在模型设定里的两个或多个自变量的乘积。 

交互项可以定义为两个定量变量的乘积，也可以是两个 
虚拟变量的乘积，或者是一个定量变量和一个虚拟变量的乘 
积。另外，更复杂的交互项可以包括两个以上的变量。根据 
文献，早期对该系列研究有卓越贡献的包括 Jaccard、Turrisi 
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和 Wan (1990), 当所有变量都是连续度量时，他们为所出现 
的交互作用提供了非常完美的解释。但是在本章，我们关注 
的是其他的交互组合。 

可以考虑构造一个包含两个虚拟变量 ( A ,、 D 2 ,) 的交互 
项来衡量两个二分的定性变量，比如性别和婚姻状况。我们 
可能会假设，作为女性所带来的影响可能会由其是否结婚而 
决定。在此情况下，我们会检验作为女性所带来的影响大 
小、已婚所带来的影响大小和交互项，包含变量 A ,、 D 2 ，的乘 
积，即 A , XD 2 jo 这样，当一个受访者为已婚女性时，其交互 
项就等于1，交互项的回归系数估计了已婚女性和其他受访 
者的不同影响程度。其中，其他受访者包括了已婚男性、未 
婚女性和未婚男性。 

现在，我们可以考虑另一个交互项,它由一个测量年龄的 
定量变量 X ,和一个性别虚拟变量 M , 所定义。在这里，我们 
可能会假设年龄所带来的影响由性别决定。因此，我们会试图 
用模型来检验年龄所带来的影响( X ,)、性别所带来的影响 ( A .) 
以及交互项( X , XA,) 的影响。在这里，交互项对所有男性都为 
0;而对女性，则会默认为她们的年龄。该交互项的回归系数估 
计了年龄对女性的影响小于(或大于)年龄对男性的影响。 

对于检验有关老年工作者收人数据的情况，图 3. 1可以 
帮我们把几种差异效应概念化。从图中我们可以看出，由于 
模型3和模型4的设定不同，使得黑人和白人之间的收人差 
异对所有职业类别都是一样的。那么.黑人的收人劣势会不 
会在高级白领中比较大，而在劳工中比较小呢？换句话说 ， Y 
截距之间的差异在高级白领中是不是比在劳工中更大呢？ 
这个问题的一个更普遍的问法是 ：“种 族的影响是不是在各 
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职业类别中不同？或者说，是不是从事不同职业对黑人和白 
人的影响是不同的?” 

为了对那些包含定性变量的交互项作出更好的解释，我 
们可以先来看看表 4.1, 其展示了收人、种族和职业之间的三 
种可能关系。在三个部分里,均列岀了不同种族在各职业类 
别里的平均收人，而且，每一列的边际值还列出了该职业类 
别的平均收人。我们发现，表格的前两个部分用的是可以说 
明交互作用类型的假设数据，且相同职业类别的均值是相同 
的。知道了这些，我们可以进一步发现表格最右端的黑人和 
白人之间的收人边际差异不总能准确地捕捉到每部分内种 
族、职业和收人之间的关系。 

表 4.1 交互项可能的种类 

高级白领初级白领技术工人操作工人服务业工作者劳工 


无交互作用 1 


黑人 

7708 

5029 

4315 

3599 

2883 

2939 

4412 

白人 

10911 

8232 

7518 

6802 

6086 

6142 

7615 


10702 

7681 

6945 

5554 

4434 

4090 


包含强度和方向差异的交互作用 a 





黑人 

7002 

5851 

5158 

6111 

5120 

4628 

5470 

白人 

10960 

8061 

7335 

5198 

3704 

3130 

7479 


10702 

7681 

6945 

5554 

4434 

4090 


包含强度差异的交互作用 b 






黑人 

7002 

5851 

5158 

4721 

4086 

3704 

4619 

白人 

10960 

8061 

7335 

6085 

4806 

4777 

7822 


10702 

7681 

6945 

5551 

4434 

4090 



注: a . 构造的数据。 
b . 真实的数据。 


表格第一部分罗列的数据是没有交互作用的。当交互 
作用不存在时，处于边际的黑人和'白人的平均收人差异为 
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3203美元，其与控制了职业类别后，黑人和白人在每一列内 
的平均收人差异的大小是一样的。读者可以通过用第二行 
每列的均值扣除第一行的均值来证实这点。在该情况下，所 
估计的种族在一个回归模型里的影响，即对每个职业组的平 
均影响（比如模型3)，就可以提供一个比较准确的黑人、白人 
间的收人差异，因为种族对所有职业类别的影响是一致的。 

表 4.1 的第二部分仍然是基于构造的数据，说明了种族 
影响在强度和方向上的不同。该交互类型表明了.种族的影 
响不仅在不同职业类别中不同，即黑人和白人之间的平均收 
入差异强度不同.而且其影响方向也不同。假设样本中组群 
均值就如表格 4. 1中所列的一样，种族的收人边际差异或者 
中距的平均影响为2009美元，从而可知，白人平均收入稍 
高。但是当我们再仔细观察表格的该部分，以指定职业组间 
的比较差异为条件，黑人和白人之间的收人差异的强度是不 
同的。这个差异在高级白领中最大 (3. 958美元），在操作工 
人中最小 (913 美元）。由于在各职业类別中，黑人和白人之 
间收人差异并不一致，因此我们需要指定一个交互项。同 
时,可以发现该差异不仅在强度上不同，其方向或者符号的 
正负也不总是相同。只有在高级白领、初级白领和技术工人 
中，白人的平均收人才比 较高; 相反，在操作工人、服务业工作 
者和劳工中，黑人的平均工资相对比较髙。因此该交互作用 
标识了收人差异在方向上的逆转，暗示了黑人和白人收人的 
边际差异隐藏了种族差异的重要部分。如果将各职业类别的 
影响平均化，那么在初级白领和技术工人中，其种族影响是合 
理且准确的。但是对于高级白领，平均化低估了种族差异，而 
且对于其他职业类别，平均化还错误地估计了差异的方向。 
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通过表 4.1 的第三部分，我们可以比较实际数据和构造 
数据的分布。这些收入均值也可以在表 2. 2中找到。在实 
际数据中，黑人和白人之间的收人边际差异为3203美元，我 
们已经在第一个回归模型里估计出该值。但是当我们把视 
线放到每个职业内时，会发现黑人和白人之间的收人差异是 
由职业类别决定的，该差异在高级白领中最大 (3958 美元）， 
而在服务业工作者中最小 （720 美元）。然而，收人差异总是 
在一个方向，即黑人工作者的平均收人总是比较小。在处理 
这种交互项时.其平均差异影响的方向通常是正确的，只是 
在一些职业类別中比较小，而在其他类别中比较大。 



第 1 节 I 解释交互效应 


第4章估计组影响差异 


为了检验交互效应.我们需要一个可以估计差异效应和 
确定其显著性的模型设定。要达到这个目标，我们就需要构 
造五个乘积项，然后把这五个项加人模型设定中。通过模型 
5.我们可以检验不同种族在不同职业中的差异效应，或者说 
不同职业在不同种族中的差异效应。 

模型5: Y, = /( 种族，职业，教育，工作任期） 

= ( 3 o + Pi BLACK ^2 OCC2 + 氏 OCC3 
+ ^000 4 + ftOCQ H-peOCQ +p7EDUC 
+ 择 TENURE + 决 BLOCQ + p 10 BLOCQ 
+ Pu BLOCC4 +P12 BLOCQ + 知 BLOCQ 十 

新变量 BLOCQ 到 BLOCC 6 是由虚拟变量黑人与每个职业 
虚拟变量相乘而得来的。如果受访者既是黑人又属于初级 
白领，那么 BLOCQ 被编码为1。因此，由 BLOCQ 的回归系 
数估计出的平均收人的增加或者降低，只能应用到黑人初级 
白领这个组群。 

模型5的结果在表 4. 2里已列岀。最初，我们可能想知 
道是否要在模型拟合中允许种族和职业的差异效应而使统 
计显著性提高。我们可以就这个问题，通过方程 3. 3的 i? 2 
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增量检验，比较模型5与模型4的结果 可知: 


0. 00679/5 = 

17 _ 0. 67862/3197 — 

表 4. 2模型 S 的回归结果 


常数 

5794. 8 

(358.7) 

TENURE 

84.0 

(6.6) 

BLACK 

-3793. 3 

(610.1) 

BLOCC 2 

1501. 2 

(823. 0) 

OCC 2 

-2274.9 
(280. 2) 

BLOCC 3 

2326. 2 

(705. 0) 

OCC 3 

-2418.4 

(232.7) 

BLOCC 4 

2984. 8 

(672. 5) 

OCC 4 

-3427. 2 

(256. 3) 

BLOCC 5 

3528. 0 

(761.0) 

OCC 5 

-4513.4 

(372. 5) 

BLOCCe 

3383. 9 

(747. 3) 

OCC6 

—4202, 8 

R 2 

0. 32138 

(399.0) 

F 

116. 46 

EDUC 

292.9 

R 2 的增量 (― 一对 ) 

0.007 

(23.1) 

变化过的 F 

6. 42*** 


注 : 括 号里为回归结果的标准误。 

- 表示回归系数在 0. 001 显著水平上显著。 


该 F 值在 0.001 显著水平上统计显著。尽管所增加的解释 
功效没有显著到可以拒绝的地步，但是 F 检验的确告诉我 
们，样本量大，估计的差异效应更加合理准确。 

现在我们再看对回归系数的解释。模型5的常数项与 
模型4中的一样，估计了有0年教育经历和工作任期的白人 
高级白领的预测收入。另外， EDUC 的回归系数告诉我们， 
在控制了工作任期、种族、职业以及职业内不同的种族影响 
后，教育对收人的平均影响是多少。 TENURE 回归系数的 
解释与之类似，在此就不详细说明了。 



第 4 章估计组影响差异 


53 


黑人和职业虚拟变量的回归系数看上去像模型4的延 
续，其实不然。由于引人了种族X职业的乘积项，它们的意 
义出现了变化。当我们继续专注于由不同种族在不同职业 
中形成的12个组群时,可以通过将各回归系数映射到其所 
在的组群中，以弄清楚每个特定的回归系数所扮演的角色是 
什么。该映射结果已在表 4. 3中列出，根据组群中的个体在 
虚拟变量中(包括交互项里）编码为1的情况把回归系数加 
人到特定组群的估计中。为简化起见，我们还是将 EDUC 和 
TENURE 的回归系数设定为0。 


表 4. 3不同种族预测收入系数 



白人 

黑人 

高级白领 

Bo 

Bo-hBj 

初级白领 

Bo +*02 

Bo B\ + JB2 + B9 

技术工人 

Bo -+- JB3 

•Bo + Bi 十 B3 + Bio 

操作工人 

Bo + B4 

■Bo + + B4 + B11 

服务业工作者 

Bo-hBs 

Bo 4~ Bi -h B5 4* B12 

劳工 

Bo -f Be 

Bo "H B\ - Bs B\z 


从黑人的回归系数开始看，战估计了黑人高级白领和白 
人高级白领之间的期望收入差异。与模型4不同的是，其提 
供的不再是黑人在所有职业类别中的平均影响。系数的《检 
验是对零假设的检验，即在控制了由教育、工作任期带来的 
方差后，黑人高级白领与白人高级白领的期望收入是一样的 
零假设。换句话说，即在高级白领中，黑人对期望收人并没 
有显著影响。由于该回归系数的 f 值为一 6. 22,因此零假设 
可以被拒绝。很明显，在高级白领中，当控制了模型中的其 
他因素后，黑人平均收人显著地低于白人。 

同样，职业虚拟变量的回归系数也不再表示黑人和白人 
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在某一特定职业类别相对于参照组的平均影响。我们用 b 2 , 
即 OCQ 的回归系数来估计白人初级白领与白人高级白领之 
间的期望收人差异，从结果中，我们知道，白人初级白领平均 
比白人高级白领的收人低 2274. 90美元。同样，白人操作工 
人平均比白人高级白领的收人低 3427. 20美元。换句话说， 
一旦指定了乘积项，原来变量的系数(如黑人，还有 OCQ 到 
OCQ 的系数)成为包括了参照组影响的比较。比如，测 
量的是黑人高级白领的 影响;氏到战 测量的是白人在除了 
高级白领的某一特定职业类别中的影响。 t 检验连同 OCQ 
到 OCQ 的回归系数一起，测量的是白人工作者在各职业类 
别的收人差异显著性。表 4. 2的结果表明，对于白人，高级 
白领与其他职业类别的估计差异显著不同。 

乘积变量的回归系数估计了不同种族从事不同职业的 
差异效应。同样，我们还可以通过这些回归系数来估计黑人 
在各职业类别里的差异效应。为什么这两种说法都可以接 
受呢？通过观察表 4. 3,我们可以给出问题的答案。白人受 
访者从事初级白领和高级白领工作的预测收人差异可通过 
压（一 2274. 9) 来表现，对于黑人，这个差异可通过 B 2 + 
^(—2274.9 + 1501.2) 来表现。因此,压估计的是相对于高 
级白领，黑人初级白领与白人初级白领的收人差异。因为 
BLOCQ 的系数为正，所以黑人在初级白领与高级白领中的收 
人差异比白人少 1501. 20美元，或者说在黑人中，该收人差异 
是一 773. 70美元而白人是一 2274. 90美元。同样，黑人高级白 
领与白人高级白领之间的期望收人差异为 B ,(- 3793 . 3), 而 
黑人与白人在初级白领工作的期望收人差异为+ 
B , (- 3793. 3 + 1501. 2) ,鸟估计了黑人相对于白人在初级白 
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领与高级白领间的收人差异影响 ，一 3793. 3为黑人与白人在 
高级白领上收人的差异，而一 2292. 1为黑人与白人在初级白 
领收人上的差异。因此，黑人各职业的期望收人差异需要由 
两个回归系数捕捉， g 卩 ft +fe， 其中 ft 为职业虚拟变量 
(OCQ 到 OCQ), ^为乘积变量的系数。我们可以把 ft 和 
之间的关系定义为 如下： 

ft = E(Y t I WHITE. OOC/) — E(Y, I WHITE. OCCref) [4. 1] 

ft* = [E(U BLACK, OCC; ) — I BLACK. COCref )] 

— [E(Yj I WHITE. OCQ) — E(Y, I WHITE, OCCref )][4.2] 
=[E(Y, I BLACK. OCQ) — E(Y; I BLACK. OCCref )] — (3, [4.3] 

因此， 

ft 十 Rrt = E(Y; I BLACK. CXXj ) 一 E(Y; IbLACK. OO&rf) [4.4] 

就像我们从方程 4.2 中看到的一样，乘积项回归系数的 f 检 
验不是黑人在不同职业中的期望收人净差异。我们所检验 
的假设要验证的是，对于黑人和白人,在指定职业类别与参 
照组间的收人净差异是否一样。 

如果这些乘积项系数为负，我们就有证据说明，相对于 
白人.高级白领与其他职业类别的收入差异在黑人里更大。 
如果再加上 OCQ 到 OCQ 的负系数,那么黑人在各职业类 
别中的收人差异与白人相比就更加显著。但是，从回归结果 
看出，乘积项的系数是正值，那么在不同职业类别间，白人的 
收人差异相对而言就更显著了，因此，相比之下.黑人就没那 
么显著，或者说其各职业类别间的收入就更接近。事实上， 
黑人在不同职业间的收人可能没什么区别，而且当职业等级 
逐渐降低时，收人差异不论在黑人之间还是白人之间似乎都 
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是缩小的。 

现在，我们进一步检验这些结论。为了证明之前的两 
个结论，我们必须确定当控制了教育和工作任期之后，非 
洲裔美国人在不同职业类别中的收人差异是否显著。可 
是没有一个计算机程序可以提供这种 r 检验，问题仍无法 
解决。交互项的 f 检验值只会告诉我们，从事不同职业的 
净效应对黑人和白人是否有显著不同。然而，知道作为一 
个技术工人 、一 个操作工人、一个服务业工作者或劳工相 
对于高级白领的种族差异，并不能确定对于黑人，从事某 
一职业类别的净效应，及其作为一个可靠的预测因子一定 
比另一个职业类别好。要回答这个问题，我们则需再深入 
一点。 


表 4. 4不同种族所得收入的职业净效应 



白人 

黑人 

初级白领 

—2274. 9 

—773. 7 

(280. 2) 

(776. 7) 

技术工人 

-2418.4 

-92. 2 

(232.7) 

(683. 5) 

操作工人 

— 3427.2 

-442. 4 

(256. 3) 

(646.5) 

服务业工作者 

—4513. 4 

— 985. 4 

(372. 5) 

(682.6) 

劳工 

-4202. 8 

-818.9 

(399.0) 

(667. 6) 


表 4. 4通过控制教育和工作任期，检验了黑人和白人 
的职业取向效应。这里，同白人有关的项与表 4. 2中 
OCQ, OCQ, OCC 4 、OCQ, OCQ 的系数一样，这些系数 
估计的均是白人各职业类别与参照组——白人高级白领间 



第 4 牽 怙计组影响差异 


57 


的收人差异。检验这些系数的统计显著性是为了了解在所 
有人群中，白人工作者在各职业类别中的收人差异是否存 
在。另外，如果我们要检验白人操作工人平均收人是否比 
白人技术工人低，那么，我们就应控制种族、教育和工作任 
期，通过方程3.1，模型5中的氏 =-2418.1, B , =-3427.2 
及它们各自的方差、协方差，来比较这两个职业类别的收人 
差异。 

对于黑人，一个职业类别的效应由两个回归系数 捕捉： 
职业虚拟变量的回归系数和交互项的系数。例如，当要确定 
黑人初级白领和高级白领在期望收人上如何不同时,我们会 
将白人高级白领和白人初级白领的期望收人差异压和黑人 
相对于白人在高级白领和初级白领中的收入 差异压 加起来 
比较。根据表 4. 3,我们可以看出，要计算黑人初级白领的期 
望收人，就要通过计算黑人高级白领期望收人的两个回归系 
数(战+岛）和另外两个回归系数 CB 2 + 战）。 M 因此，对于黑 
人，表 4. 4中一个职业类别中的估测收人效应可以通过对适 
当的回归系数求和来构造。 

正如我们在表 4. 4中看到的一样，黑人相对于白人，在 
非高级白领职业中显示的收入劣势要小一些。与白人的职 
业间收人差异不同的是，存在于黑人中最小的差异是高级白 
领与技术工人之间的差异，而不是高级白领与初级白领之间 
的差异。事实上，黑人高级白领与初级白领的收人净差异和 
高级白领与劳工的差异差不多。然而，这些关于黑人职业间 
的期望收人净差异仅基于回归系数。那么，回归检验可以使 
我们对这些估测的差异更自信吗？如果不可以，那么这些差 
异是否大多归因于抽样误差？ 
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表 4. 2中乘积项系数的 i 检验告诉我们，除了初级白领， 
任意指定职业类别和高级白领在黑人或白人中的收入差异都 
是显著不同的。但是，我们还没有直接检验黑人职业间收入 
差异是否显著。那么，必要的 t 检验是估计两个回归系数的和 
相对于该统计样本分布的标准差的比率，即 （氏 + 氏) / 
SE(B 2 +B 9 ) 。下面这个与方程 3. 1相似的方程正好可以达 
到此 目的： 

t = Bj + Bj*/ [var(By) + vaKB，）+ 2 cov ( Bj , ）] 1/z 

[4.5] 

与方程 4.1 到方程 4. 4 一样， B, 代表第 ； 个职业类的虚 
拟变量的回归系数，表示第 々个自 变量，在该例中，即为黑 
人与第7个职业虚拟变量乘积项的回归系数。 f 检验可通过 
将表 4. 4中与黑人相关的系数的代人方程 4. 5计算得出。 
我们发现，所计算出的 t 值没有一个是超过临界值 ±1. 96 
的，从而可得出结论，剔除了教育年限和工作任期的影响后， 
尽管职业定位对白人期望收人水平有显著的影响，却没有真 
正提高黑人的平均期望收入。 [8] 

至此,我们再回到图 3. 1。我们将通过假设不同种族中 
的职业类别效应是不同的来开始本章的内容。就这张图，我 
们可以设想截距所体现的种族差异在各职业类别中是不同 
的。通过检验，我们发现，结果确实如此。对比图 4.1 与图 
3.1，可以更明显地看出，不同职业类别的收人差异强度对黑 
人和白人确实不同。 

与之前相比，我们在表 4.5 列出了对图 3. 1和图 4. 1中 
12个组群的估计截距值。左边两列为通过模型4的估计值 
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计算出来的截距(见图 3. 1)，右边两列为通过模型5的估计 
值计算出来的截距(见图 4. 1)。因为职业类别间种族的差异 
效应不同,所以通过模型5所得到的截距不仅修改了组群间 
的距离，还沿着 y 轴重新排列了组群。我们需要谨记在心的 
是，这些组群的期望收人均是建立在受访者的教育年限和工 
作任期均为0的情况下的。 


表 4. 5 种族和职业的截距差异 



模型4 

模型5 


白人 

黑人 

白人 

黑人 

高级白领 

5761. 1 

4573. 0 

5794. 8 

2001. 5 

初级白领 

3445. 0 

2256. 9 

3519. 9 

1227. 8 

技术工人 

3417. 4 

2229. 3 

3376. 4 

1909. 3 

操作工人 

2594. 5 

1406. 4 

2367. 6 

1559. 1 

服务业工作者 

1842. 6 

654.5 

1281.4 

1016. 1 

劳工 

2154. 3 

966.2 

1592. 0 

1182. 6 


从图 4. 1可以看出，白人和黑人在高级白领与技术工人 
之间的垂直距离都是一样的。对于这两个职业类别，代表技 
术工人的线比代表高级白领的线低2344美元。2344美元为 
表 3. 3中列岀的 OCQ 的回归系数.其估计了在年收人上，作 
为一个技术工人相对于高级白领所带来的影响的大小。然 
而，在图 4.1 中，高级白领与技术工人的比较描述了不同职 
业类别中的种族效应。对于白人，这段垂直距离为2418美 
元; 对于黑人,这段距离仅为92美元。这些数据来自表 4. 2 
中模型5的回归结果，并可直接从表 4. 4中获得。 

尽管图 3. 1与图 4. 1截距之间的距离不同，但是所有组 
群的教育年限和工作任期的偏斜率都是一样的.即实线都是 
互相平行的，这表明图中所用的是教育的平均 效应； 所有虚 
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图 4.1 模型 5 的回归结果 

线也是互相平行的，说明了工作任期也是由其平均效应表现 
的。本部分构建的最后一个模型对这点提出了 质疑: 对于所 
有组群，教育年限和工作任期的偏效应真的相同吗？对于这 
点，我们可以假设教育和工作任期的种族效应，然后再检验 
教育年限和工作任期对黑人和白人是否都一样。尽管我们 
发现每增加一年教育年限或工作任期,所获得的收人增加值 
对黑人和白人是不同的，但是一些线仍然呈现平行状态。因 
为有六组线是与黑人相关的，其中每一条线对应一个职业类 
别，还有六组线是与白人相关的，其中每一条线同样对应一 
个职业类别。我们发现，教育对于种族的差异效应表明，与 
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白工工白工劳工白白劳黑 
级术作级术人作的级人的 
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白白白黑黑黑服黑服 
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黑人工作者相关的实线是互相平行的，与白人工作者相关的 
实线也是互相平行的，但是这两个斜率可能不尽相同。 [9] 工 
作任期的也存在类似的情况。 

为了检验假设 jBEDOawhites) = PnXJCaiacks) 和 pTENUKE< whites) = 
pTENURE(blacks) > 我们构建了~■个新模型来检验黑人和白人之间 
的差异效应。该模型基于模型5,只是在模型设定中又新加 
入了两个变量。由于要检验的是变量关系的差异性，因此我 
们仍会用到交互项。在该模型下，新增加的交互项分别为 
EDUC 和 BLACK 的乘积及 TENURE 和 BLACK 的乘积，分 
别记做 BLEDUC 和 BLTEN 。 对于样本中的黑人 ， BLEDUC 
的分布应该和 EDUC 的分布是一样的。然而,对于样本中的 
白人，其在 BLEDUC 中全被编码为0;对于 BLTEN 与 TEN - 
URE , 情况与教育类似。该新模型可描 述为： 


模型 6 : Y , = /( 种族，职业，教育，工作任期） 

=氏 + 氏 BLMX + 洚 OCC2 + 氏 OCQ + 氏 OCC 4 
+ ft OCQ + ft OCQ + 沐 EDUC + ft TENURE 
+ BLOCQ + J 3 io BLOCQ + Pn BLOCC4 
+ |3 12 BLOCQ + p 13 BLOCQ + p 14 BLEDUC 
+ p 15 BLTENURE + M , 

模型回归结果在表 4. 6 中列出。除了 EDUC 和 TENURE . 
其他与模型5中相同变量的回归系数的解释方法基本不 
变。有一点需明确的是.估计这些效应基于其不仅控制了 
其他自变量，还控制了种族在教育年限和工作任期上的差 
异效应。 
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表 4. 6模型6的回归结果 


黑人的效应 8 

常数 

4962. 5 
(435. 9) 


BLACK 

-1667.3 
(901. 3) 


OCC 2 

-2155.4 
(281. 7) 

-1068.8 
(779. 5) 

OCC 3 

-2167. 9 
(242. 5) 

-718.4 
(703. 4) 

OCC 4 

-3132. 1 

-1144.5 

(268.8) 

(672. 7) 

OCC 5 

-4281. 2 
(378. 9) 

-1605. 1 
(703. 4) 

OCC6 

-3851. 3 
(411. 0) 

-1611.5 
(703. 7) 

EDUC 

359.1 

186.3 

(29. 4) 

(37. 3) 

TENURE 

80.3 

(7.6) 

94.6 

(13.1) 

bl(xx 2 

1086. 5 
(829.0) 


BLOCC 3 

1449. 5 
(744.4) 


BLOCC 4 

1987. 6 
(724.7) 


BLOCC 5 

2676. 1 
(799.5) 


.BLOCCe 

2239. 7 
(815.2) 


BLEDUC 

-172. 7 
(47. 5) 


BLTEN 

14.2 
(15. 2) 


R 2 

0. 32434 


F 

102. 25 


R 2 的增量 (R 〖一坧） 

0. 00296 


变化过的 F 

7. 01*** 



注 : 括 号里为回归系数的标准误。 

a. 黑人的系数是由加和模型 6 回归系数得 出的 ; 其标准误通过 [var(B,) 
+ var(B > ) +2cov(B,B ； )] 1/2 计算得出。 

… 表示系数在 0. 001 显著水平下显著。 
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尽管对于大多数变量，其系数估计和显著性检验都相 
同，但是相对于模型5,模型6有一些回归结果的变化需提 
及。尤其是虚拟变量黑人的系数减少了不止一半，而且其在 
0.05 显著水平上也不显著了。另外,交互项 BLOCQ 也明显 
变小了，而且在 0. 05水平下边际显著。我们应该如何解释 
这些变化呢？ 

为了回答这个问题，我们必须看看新加人的这两个变 
量——教育和工作任期的交互项。 BLTENURE 的回归系数 
统计上并不显著，这表明在一个雇主的情况下，每增加一年 
的工作任期，其黑人或白人增加的收人是一样的。在这个发 
现下，我们回想从模型4到模型5,当第一次加人了乘积项 
后，从对 OCQ 到 OCQ 的系数的解释方法可以运用到该模 
型对 TENURE 的回归系数的解释中。在这里， TENURE 的 
回归系数表明，为同一雇主工作每增加一年，白人工作者的 
收人每年会增加 80. 30美元。 BLTENURE 回归系数估计了 
黑人与白人的工作任期净差异为 14. 20美元。那么，我们就 
可以知道，黑人工作者为一个雇主工作每增加一年，其收人 
每年会增加 94. 50美元。然而很明显， BLTENURE 的标准 
误与回归系数大小相近，这说明了该效应很弱。因此，我们 
可以得出如下 结论： 工作任期对黑人和白人的影响基本 
一样。 

教育的情况就有所不同。 EDUC 的系数告诉我们，当控 
制了其他变量的影响之后，每增加一年的教育年限，白人的 
收入可增加 359. 10美元。 BLEDUC 回归系数表明，每增加 
一年的教育年限，黑人的收人仅会增加 186. 40美元 (359. 10 
美元一 172. 70美元)。 BLEDUC 的显著性检验表明，其在统 
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计上是显著的。对于所有人群，若不考虑其他变量，那么，每 
增加一年的教育年限，黑人所增加的工资相对于白人会少一 
些。因为黑人和白人的教育净效应不同，所以模型5所用的 
黑人和白人的平均教育效应其实低估了每增加一年教育年 
限白人的教育回报.同时高估了每增加一年教育年限黑人的 
教育回报。 

在描述有关种族一职业的交互项时，我们可以对这些影 
响效应问同样的问题。尤其当我们已经知道，工作任期对黑 
人的净效应与白人没有显著不同，但是教育的确不同，其对 
白人的净效应要大于黑人。我们不知道教育年限是否会显 
著影响黑人的期望收人水平。要回答这个问题，我们必须回 
到方程 4. 4,通过检验有关的回归系数的加和值来估计黑人 
的教育净效应。将相关系数代人方程 4. 4后，我们 发现： 


t = 359. 1 十 （ 一 172. 7) / [(862. 691) 

+ (2253. 569) + 2( - 862. 691)] 1/2 
= 186. 4/37. 29 = 5.00 

教育 确实会影响白人和黑人的期望收人，然而，黑人的平均 
教育回报率比白人低。 

对于之前提出的问题——我们该如何考虑 BLACK 和 
BLOCQ 的影响在方向上的逆转呢？现在我们可以提供这样 
一个解释:同模型5,当教育对收人的净效应没有种族差异 
时.则黑人的回归系数告诉我们，在高级白领中，黑人有着非 
常显著的收人 劣势; 在控制了其他变量后，黑人高级白领平 
均比白人高级白领少挣4000美元。同样.对于技术工人与高 
级白领之间的期望收人净差异，白人 (2418. 40美元）也比黑 
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人 (92. 20美元）多很多。这些都可以从图 4.1 中看出。然 
而 ，一 旦考虑了模型6中种族对教育的差异效应时，就会发 
现在高级白领中，黑人和白人的期望收入净差异在双尾检验 
的 0.05 显著性水平下不显著了。尽管从模型5到模型6,虚 
拟变量黑人的回归系数的标准差增加了，但是最重要的变化 
应该是系数本身的点估计。模型6中 BLACK 的回归系数比 
模型5中的一半还小，这个现象反映了黑人高级白领与白人 
高级白领的 Y 截距的差异变小了。这点我们可以在图 4. 2 
中看出。但是，当我们沿着横坐标轴向高教育年限方向移动 


白人高级白领 


黑人高级白领\4 
黑人初级白领 
黑人技术工人 
白人技术工人 
白人初级白领 
白人操作工人 
黑人操作工人 
从事服务业的白人 
白人劳工 
黑人劳工 
从事服务业的黑人 





图 4. 2模型6的回归结果 
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时，会发现黑人高级白领与白人高级白领间的距离变大，这 
说明白人高级白领相对于黑人高级白领的相对收人优势随 
着教育年限的提高而变大。从表 4. 6的回归系数我们可以 
算出，当教育年限为0时，白人高级白领与黑人高级白领的 
收入差异为1667 美元； 当教育年限变为16年时，白人高级 
白领的期望收人比黑人高级白领高4430美元。 

当我们把注意力转移到 BLOCQ 时，会发现 BLOCCs 在 
模型6中的回归系数比模型5中的小，因此，我们不可以拒 
绝有关“当控制了模型中其他因素和教育的种族效应后，技 
术人员的净效应在黑人和白人之间相同”的零假设。但通过 
模型5和模型6的对比，可以知道，白人高级白领与黑人高 
级白领之间的期望收人净差异部分可归因于获得比较高教 
育等级的黑人所挣得的收人，总是不如同等条件下的白人 
多。如果额外的教育年限带来的收人差异被允许，换句话 
说，一旦我们可以承认额外的教育年限所引起的收人增加在 
白人中比黑人多，我们就可以解释为什么黑人高级白领获得 
的期望收人比白人高级白领少，因为他们额外教育的回报率 
相对白人而言很低。我们不想把最初的观测结果——黑人 
高级白领相比白人高级白领有收入劣势——视为 无效; 相 
反，根据黑人的收人劣势，模型6的结果提出了一个可能的 
解释。另外，我们知道，在技术工人中，那些最初看上去由种 
族差异导致的收人差异效应，其实部分也归因于在该职业类 
别中，黑人相对于白人所累积的教育回报差异。 
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第2节 | 对各组群分别进行回归 

HHHRHHRMIIHMHHHHHIIHRRHMIlIRHHHHBHHIMMHBHHmBHBHPm 


我们已知年纪较大的黑人工作者与白人工作者的期望 
收人有差异，现在，需要通过控制职业、教育年限、工作任期 
来研究该现象，进而一步步扩展模型设定，把有关白人与黑 
人中的额外变量的差异效应检验也包括在内。该步骤可能 
会引起读者的疑问，在允许自变量在每个组群中有所不同的 
情况下，为什么我们会用模型6对整个样本进行估计，而不 
是对每个组群分别进行回归估计呢？为什么不把样本分成 
黑人和白人两组，用期望收人对职业虚拟变量、教育年限和 
工作任期对每个组群分别进行回归？事实上，若是检验假设 
和标准 OLS 假设都可以通过恰当的统计过程得到满足，那 
么，这些方法都是等价的。 

为了构建一个含有交互项的全样本模型，我们要注意以 
下 六点： 

第一，当没有乘积项或交互项时，自变量的系数告诉我 
们的是一个“平均效应”，而当其他自变量也包含在规范里 
时，则为“平均偏效应”。 

第二,当把乘积项加人到模型设定中时，我们可以通过比 
较两个模型的圮值来确定是否要用各组群的平均效应来提 
髙模型拟合度。如果记的增量是由于加入了乘积项后而变 
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得足够大，我们就可以拒绝零假设(各组群的效应是相同的)。 

第三，当我们用模型6对全样本进行估计时，从 OCQ 到 
OCQ 的回归系数的 f 检验可以测量白人工作者的职业净效 
应，而 BLACK 的回归系数的 f 检验则可以解释非洲裔美国 
人在高级白领中的期望收入净效应。 

第四，为了检验一个自变量的效应是否对黑人工作者显 
著，我们必须构建两回归系数的加和的 < 检验。 

第五，为了检验两个自变量的效应是不是显著不同，例 
如，检验操作工人是不是和服务业工作者不同，我们必须构 
建两回归系数差异的《检验。 

第六，要对乘积项进行 t 检验，我们需要确定解释变量的 
效应是否因种族差异而不同。 

通过对每个组群分别进行回归，例如，先对黑人进行回 
归，再对白人进行回归，我们就可以自动估计出不同组群的 
效应。换句话说，对每个组群，如果要知道一个指定自变量 
是否有显著效应，就必须考虑上述第四点是否必要。然而， 
如果估计不同组群的回归的目的是评定组群差异效应的显 
著程度，那么，该差异效应检验就非常必要了。 

当缺乏详尽的检验时，研究者可能会陷人两难。想象一 
下，当要分析政治激进主义为年龄的函数时，我们期望得到 
的是年龄和政治激进主义的关系随教育程度的不同而不同， 
尤其是当我们假设年龄和政治激进主义的关系是否与大学 
毕业有关时。从大学毕业组与非大学毕业组分别随机选取 
500个样本，然后分别对其进行回归，我们可能会发现一个明 
显的年龄效应“差异”。例如，假设年龄对大学毕业生的影响 
为 一0. 16,而对非大学毕业生的影响为 一0. 32。那么，因为 
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大学毕业生的回归系数是非大学毕业生的一半，我们就可以 
说年龄对大学毕业生的影响比那些没有接受大学教育的人 
小吗？大多数读者在此可能会意识到这么说有风险。如果 
该研究的目的是从样本推及整体，那么同时考虑点估计和误 
差是非常必要的。当要评估回归模型中自变量影响的重要 
性时，就不是简单的系数强度的问题了，而是系数强度相对 
于标准差的问题。当要描述有关相对影响的强度，即这些影 
响是不是相等时，也需要考虑该问题。估计回归系数的差异 
强度必须相对于差异的标准误。在这种情况下，由于信息非 
常有限，我们很难判断在受教育程度不同的组群里，年龄对 
政治激进主义的相对影响。 


表 4. 7对组群分别回归的结果 



黑人 

白人 

常数 

3295. 2 

4962. 5 

(416. 0) 

(494. 9) 

occ 2 

-1068.8 

-2155. 4 

(411.2) 

(319. 8) 


—718.4 

— 2167. 9 



(371. 1) 

(275. 3) 


-1144.5 

-3132.1 



(354. 9) 

(305. 2) 


-1605. 1 

-4281. 2 



(371.2) 

(430. 2) 


-1611.5 

-3851. 3 


(371. 2) 

(466. 6) 


186.3 

359.1 

EDUC 


(19.7) 

(33. 3) 

TENURE 

94.5 

80.3 

(6.9) 

(8.6) 

R 2 

0. 31887 

0.24450 

F 

61. 06 

105. 50 

RSS / (.n 一 k 一 1) 

4046652.4 

18754709. 2 

N 

921 

2290 


注:括 号里为回归系数的标准误。 
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现在我们假设，除了回归系数估计，我们已经知道了这 
些估计的标准误 ：回归 系数一 0. 16的标准误为 0. 11，系数 
0.32 的标准误为 0. 14。那么我们会发现，大学毕业生组的 
影响在常用的显著性水平下并不显著。 [1 Q ] 此时，是不是就可 
以下结论说，年龄的效应在非大学毕业生组更大呢？答案当 
然是否定的。尽管我们已经证明在非大学毕业生组中，年龄 
是估计政治激进程度的一个重要预测因子，但是我们并没有 
对该差异效应进行进一步的推理。如果研究问 题是: 两种影 
响是不是相等？或者说 HwpoG — pNCG = 0 是否成立(其中， 
Pcg 是年龄在大学毕业生组的影响，卩 NOG 为年龄在非大学毕业 
生组的影响）？那么，此时就不再是 Pee 或本身相对于我 
们的零假设是不是显著，比较合适的估计应该是用 Pee — 
PNCGo 该统计强度必须是相对于 |3 CG —卩 NCG 的标准差来估计 
的。当回归系数都来自同一个方程时，我们可以用方程 4. 5 
来进行检验。但是，如果系数是从不同的回归中估计岀来 
的，该检验的定义就会有些不同。 [11] 

要说清楚这些问题，我们必须先回到收人数据。然后对 
白人工作者和黑人工作者分别进行回归，其回归结果可在表 
4. 7中看到。由于回归系数是在不同的样本中估计出来的， 
那么，所有 B (如啟、 B 2 、 B 3 等)差异影响估计必然是不相关 
的。那就是说，协方差的估计为0。因此，方程中的标准差变 
为根号下方差的和。然而，这个不同组群的方差系数部分是 
基于整体方差的组群估计。总体方差因为总体方差的每两 
个估计只是建立在“部分”样本上的，所以其用的是残差平方 
和的不同部分。这就表明了通过合并两个组群的信息计算 
总体方差的合并估计值的必要性 ( Kmenta ， 1986)。另外，由 
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于组群的大小可能不同（例如，白人的数量可能比黑人多两 
倍以上），这时，该合并估计值必须通过合适的自由度来对每 
个组群估计加权 (Long Miethe , 1988)。 

假设各组群的方差是相等的(也就是我们所说的方差的 
同质性），那么，计算总体方差的合并估计值的方 程为： 

2 一 （ n ! — h _ l ) s ; 十（?1 2 —是 2 — l ) s ; p 
ipooled = N - a , +是 2 +2) L4 - 6J 

其中， n , 和吨是组群中的事件数 ， iV = n , + 屯 ；& 和& 为每个 
组群中包含的自变量的数目 d 和4是组群各自回归岀的平 
均残差平方和。 Dz ] 用来检验组群回归系数差异的 Z 检验公 
式为： 


Bj — B 2 


Spooled ( 


+ 


4、 


[4. 7] 


其中， 冷 和 < 分别为 ft 和压的方差，和/ 2 与上式相同。 
通过执行上述 r 检验，我们即可重现在全样本回归模型中的 
交互项的 f 检验。例如，将表 4. 7中的回归结果代人方程 4. 
6及方程 4. 7,从而检验对黑人和白人教育的影响是不是都 
一样。那么，为了计算总体方差的合并估计，我 们有： 



(921 -8) (4046652) + (2290 — 8)(18754709) 
3211-16 


=14551750 


将其带入£检验方程后，我们 发现: 


3814. 7 


186.3-359.1 
/ 386. 8 | 1108.9 

(4046652 18754709 



-172.7 

47.5 


=- 3. 6 
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通过；统计量分子、分母的比较，连同表 4. 6里所有回归系数 
和 BLEDUC 的标准差,我们可以对这两个过程的等价性看 
得更加清楚。然而，在证明该等价性时，我们仅简单地把相 
关系数带人方程 4. 6和方程 4. 7,而没有检查是否满足了隐 
藏在 r 检验背后的假设。事实上，直到现在，所有的讨论都忽 
略了是否符合 OLS 假设的问题。在构建一个含有二进制编 
码的虚拟变量回归系数的解释过程中，我们一直坚持 OLS 假 
设是没有争议的，不管事实如何。现在是时候纠正这种错误 
了。确实，由于当前我们把重心放在推理检验上，这就需要 
我们更仔细地检验这些假设，特别是在已经有了先例后，在 
对有关从全样本或者组群回归中出现的差异效应下任何结 
论前，我们必须检验方差的同质性(或称“同方差性”)。 

然而,尽管是否符合 OLS 假设非常重要，但从表 4. 7和 
表 4. 6的比较结果来看，这样做还是会有问题。表 4. 6中列 
出的黑人职业净效应的显著性检验是基于模型6的全样本 
估计，当其分别对黑人与白人回归后，无法得到重现。虽然 
对回归系数的估计没有分别，但是标准差却明显不同。当对 
各组群分别进行回归估计时，相比表 4. 6中的结果，黑人的 
标准差变小了，而白人的标准差变大了。那么，我们如何解 
释这种不一致性呢？ 
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第3节 | 处理异方差性 

flEHHmBMBHnmiBHBBMMKaRIMHMEP 


我们已经根据隐含的假设(收入水平和收人结构的决定 
因素与种族有关并随种族不同而变化)发展了模型。换句话 
说，我们开始只是识别黑人和白人的收入水平总差异，之后 
发展到可以解决解释变量差异效应的问题，比如职业虚拟变 
量和与教育年限、工作任期有关的交互项等。然而，这些检 
验都存在潜在问题，因为其假设是基于两组群的同方差性。 

尽管从模型6中用全样本数据获得的回归系数估计和 
分别回归组群数据得出的估计一样，但是由全样本回归得来 
的总体方差 RSS /( N -/ fe - l ) 只有在同方差性的假设被满足 
后,才基本上与分别回归组群得来的方差合并估计值相等。 
由组群回归带来的平均残差平方和对于黑人是4046652,而 
对白人为18754709。相对于对每个组群分别回归估计—— 
分别只估计了其中一部分观测（该例中，分别为921个黑人 
和2290个白人），模型6的全样本估计 (14551750) 用了所有 
的观测值，因此全样本估计是建立在最多的信息上的。但 
是，只要我们假设 u , 对所有的；^都是个常数，那么从全样本 
数据得来的估计即对总体方差的无偏估计。但是对于本例， 
的方差不会因组的不同而不同”这一假设有效吗？要回答 
这个问题，必须更仔细地研究我们的回归结果。 
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同方差性的假设指出，给定特定值的自变量干扰项的条 
件方差为一个常数，即 < j 2 。 对于比较不同组群的研究问题， 
检验其异方差性是很有必要的。许多异方差检验都要求研 
究者检验 OLS 估计的残差平方，即4。基本的统计教材也会 
为该问题及其检验过程提供比较概述性的讨论 （ Gujarati ， 
1988； Johnston , 1984)。根据我们的侧重点，我们将会把注 
意力主要集中到两个检验和一个讨论上。 

在此例中，我们假设方差的大小是种族的函数，即方差 
在不同的种族中是不同的。一个直接的检验是可以比较从 
黑人和白人的分别回归中得到的平均残差平方和。如果同 
方差性存在，那么两组群在估计回归平面的误差方差上也应 
该相同。因此，我们可以提岀零假设，即这些方差都是相等 
的，其又可表达为， U ,： o \= al ， 同时可用平均残差和作为这 
些参数的估计。因此我们构建了一个有关相对方差的比率， 
那么当比率为1时，方差 相等； 当比率偏离1时，同方差假设 
就站不住脚了。假设服从正态分布且同方差性的假设成 
立，那么该比率遵循 F 分布。从而，我们可以构造如下的 
检验： 


F = RSSi / nj—ky — l 「4 81 

*,一 1 ，- RSSz / n 2 ~ k 2 ~l L4 . 8 」 

其中，分子由较大方差的组群回归得出，而分母由较小方差 
的组群回归得出。在该情形下4和 &( 回归中所包含的自 
变量个数)是相等的，因其模型设定相同。将表 4. 7的结果 
代人，我 们有： 


^9132 282 = 18754709. 2/4046652. 4 = 4. 63 
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对于该样本量大小的组群， F 值在 0. 001显著水平下为 
4. 63,这表明我们要拒绝同方差的零假设，而倾向于异方差 
性。对于模型6,其回归系数的估计仍然是无偏的。然而，在 
异方差下， f 检验是不准确的。而且，在组群间的异方差条件 
下阐述解释变量的组群差异效应非常复杂，因为影响差异的 
回归检验并不清楚。我们并不知道导致该检验结果的是组 
群间的差异效应，还是组群间的方差差异。 

当方差不等时，检验正态分布的均值等价性问题即著名 
的 Behrens-Fisher 问题 ( Amemiya ， 1986:36)。针对该问题的 
解决方法有很多。这些方法主要依靠一些数据转换或者再 
加权来处理异方差问题，或者通过重新计算检验统计量的分 
布来调整偏差。在本例中，异方差性的问题似乎比较容易 
解决。 

最初，我们从传统回归模型设定的基础上着手，这样，解 
释变量的备择组合就有被假定的可能性，但是我们不会质疑 
用来检验这些关系的模型设定。虽然已经用 INCOME (以工 
资和奖金挣来的美元数衡量）作为因变量，但是实际所用的 
模型设定可能并不是最佳选择。例如,如果工资呈对数的正 
态分布(该断言已经为大量的经济学文献所支持），那么异方 
差性可能就会在模型设定的误差中产生。 
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第4节 I 解释半对数方程的虚拟变量 

明_讓_黼1 1 靨_ 111_1__圃_1___画■圓麵 


我们通常使用自变量和因变量原来的度量来解释回归 
方程。根据此惯例，我们保留了读者已非常熟悉的回归系数 
解释方法，即期望值 Y 随 X 的单位变化而变化。有时，函数 
规范会要求自变量或因变量，或者两者一起变换。研究文献 
中最常见的变换就是对数变换。当变量呈高度偏斜分布时， 
这种变换就尤其有用。 [13] 尽管对数变换通常是处理异方差 
性的补救方法 （ Gujarati ， 1988； Maddala , 1992)，但在本例 
中，将其转变成收人的自然对数是为了澄清一个对收入分布 
的理解问题，即5000美元与10000美元的收人差异和50000 
美元与55000美元的收人差异的意义是不同的。而在初始 
的收人分布度量中，不管该增量在分布中是如何计算的， 
5000美元的差异就是5000美元的差异，它始终只是一个增 
量而已。相反，如果把增量5000美元视为比例项，我们就可 
以看出，在初始5000美元的基础上再增加5000美元，相当于 
增加了 100%，而在初始50000美元的基础上增加5000美 
元，相当于只增加了 10%。那么，如果要说出与50000美元 
成比例的同等效力，则应该是在其基础上增加到100000美 
元，或者说增加50000美元，这样才增加了 100%。通过收人 
的对数变化，我们可以用比例项来表示自变量和因变量之间 
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的关系。在一个半对数模型中，只能通过将因变量或者自变 
量转换为对数形式来 实现; 在本例中，我们所用的是因变量 
收人的对数变换模式，而保持自变量的度量标准不变。 

我们可以将 Y 的半对数模型定义 如下： 

模型7: ln ( Y ,-) = /( 种族，职业，教育，工作任期） 

= |3o + Pi BLACK + (3 2 OCC 2 + p 3 OCC 3 
十 p 4 OCQ+Ps OCC 5 + OCQ+p 7 EDUC 
+ (3 8 TENURE 十氏 BLOCQ 
+ Pio BLOCQ + (3n BLOCC 4 
+ p 12 BLOCQ 十如 BLOCQ 
(3]4 BLEDUC "I - P 15 BLTENURE w; 


当为一个连续变量时，我们将其回归系数解释为在给定 
的 X 的绝对变化下， Y 的相对变化。例如， TENURE 变化一 
年，相应的 Y 的成比例变化多少。如果我们用100乘以氏， 
那么，我们得到的是 X —个单位的绝对变化所带来的收人的 
百分比变化。例如，如果6 8 为 0. 014,我们可以说每增加一 
年的工作任期，所预测的 Y 会增加1.4%。该解释在自变量 
为连续度量时是有效的，但是 Halvorsen 和 Palmquist (1980) 
告诉我们，对于虚拟变量，其回归系数不可以这样解释。 

假设义《是一个虚拟变量，由于虚拟变量用的是离散编 
码，如0和1，则不可以通过回归系数来定义斜率。因此，对 
于虚拟变量，我们不能将其回归系数作为因变量对虚拟变量 
的导数。另外，虚拟变量的回归系数通过因变量的单位变化 
捕捉的是指定组群与参照组之间的均值差异。当 InY 
时，半对数模型设定中的虚拟变量的回归系数表达了 InY 的 
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相对变化。就如 Halvorsen 和 Palmquist (1980) 所说的，半对 
数回归中的虚拟变量系数 等于： 

- ln 1+Y ：~ Yret [4.9] 

其中， t 为被编码成1 的组 群的夕 期望值,为参照组的 
Y 的期望值。为了用 Y 的原始度量标准而不是相对于其对 
数变换模式的分布表达虚拟变量对 y 的百分比效应，我们就 
需要用对数函数的反函数，即指数形式或者反对数形式。此 
时，编码为1的组群（而不是参照组）的百分比差异可表 
示为： 

100[ exp ( B ! )-1] [4. 10] 

因此，若虚拟变量的系数，如黑人的回归系数氏 为 一0. 632, 
不难算出，用1减去以 e 为底，_ 0. 632为指数的值为 
一 0. 468,这表明了黑人的期望值 Y 比参照组白人的期望值 
低 46. 8%。 

表 4. 8的左边列出了模型7的全样本估计 结果; 右边是 
对黑人和白人分别进行回归的结果。 

我们第一个任务是观察现在是否满足同方差的 假设。 
将相关系数代人方程 4. 8后，我 们有： 

F 9 132 282 = o. 27774/0. 21983 = 1. 263 

根据所得的 f 值，我们无法拒绝同方差的零假设，因此，现在 
可以着手检验黑人和白人之间的差异效应了。 

在总结重要的结论之前，我们先来比较一下表 4. 8里两 
个回归模式的结果。首先,我们可以发现，表的两部分的系 
数估计是相同的。其次，如果再仔细观察会发现，不同回归 
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表 4. 8 所有解释变量和交互项对 LN(INCOME) 的效应 



全样本回归 

组群样本回归 


模型 

黑人 a 

白人 

黑人 

常数 

8.353 


8.353 

7.720 

(0. 056) 


(0. 054) 

(0.109) 

BLACK 

OCC 2 

-0. 632 
(0.115) 

-0. 244 

-0.029 

-0. 244 

—0. 029 

(0. 036) 

(0. 099) 

(0. 035) 

(0. 108) 

OCC 3 

-0. 174 

0. 056 

-0. 174 

0.056 

(0. 031) 

(0. 090) 

(0. 030) 

(0.097) 

OCC 4 

-0. 328 

— 0. 056 

-0. 328 

—0. 056 

(0. 035) 

(0. 086) 

(0. 033) 

(0. 093) 

OCC 5 

-0. 585 

— 0. 105 

一 0. 585 

—0. 105 

(0. 049) 

(0. 090) 

(0. 047) 

(0. 097) 

OCCe 

— 0. 510 

-0. 209 

-0. 510 

-0. 209 

(0. 053) 

(0. 090) 

(0.051) 

(0. 097) 

EDUC 

0. 049 

0. 043 

0. 049 

0.043 

(0. 004) 

(0. 005) 

(0. 004) 

(0. 005) 

TENURE 

0.014 

0.027 

0.014 

0.027 

(0. 001) 

(0. 002) 

(0.001) 

(0. 002) 

BLOCC 2 

0.215 

(0.106) 




BLOCC 3 

0. 230 

(0. 095) 




BLOCC 4 

0.272 

(0. 093) 




BLOCCs 

0. 480 

(0.102) 




BLOCCs 

0. 301 
(0.104) 




BLEDUC 

—0. 006 
(0. 006) 




BLTEN 

0.013 
(0. 002) 




RSS 的平均值 

0. 23654 


0.21983 

0. 27774 

R 2 

0. 42489 


0. 32987 

0. 30082 


注 : 括 号里为回归系数的标准误。 

a. 黑人的系数是由加和模型 6 的回归系数得 出的； 其标准误通过 
[var(B,)4- var(B 7 ) +2cov(B,B,)] L2 计算得岀。 
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模式所得到的标准差也非常接近。第三，通过这两个模式的 
回归检验，我们可以得到相同的 结论： 对于白人,在控制教育 
和工作任期的情况下，高级白领有着非常显著的收人优势， 
同时，教育年限和工作任期对期望收人有正的净 效应; 对于 
高级白领，黑人没有白人那样的收人优势,事实上，当控制了 
模型中的其他因素时，高级白领的期望收人比劳工多很多， 
但是其他的职业差异却没有那么显著。教育年限所带来的 
收人净效应对黑人和白人来说没什么差别，然而，工作任期 
所带来的效应对黑人比对白人大。此外，种族和职业的交互 
项告诉我们，职业的净效应因种族的不同而不同，职业差异 
导致的期望收人差异在黑人中表现甚小。 

我们可以通过描述黑人在各职业中的净效应来总结这 
些 结果: 黑人高级白领相对于白人高级白领有明显收人劣 
势，这种劣势基本上在除了服务业工作者以外的所有职业类 
别中都存在。在服务业工作者中，控制了教育和工作任期 
后，黑人和白人之间的期望收人差异并不显著。 [14] 
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第5节 | 检验两组以上的异方差性 


关于检验异方差性的方法及文献有很多。例如， Gold - 
feld - Quandt 检验，其在观测量不是很大之时是一个比较合适 
而且常用的方法。然而，此方法需要把观测分成两组 ( Gold - 
feld Quandt , 1972, Gujarati , 1988)。 另一个常被引用的 
检验过程是 Glejser (1969) 提出的，他认为要检验一系列回 
归，就要证明 k l 是模型中每个自变量的函数(其局限性可参 
见 Gujarati , 1988； Maddala , 1992)。在该例中，我们先用模 
型6的回归结果来计算&，然后用 k 丨对 BLACK 进行回归。 
此方程的 F 检验是为了说明是否要拒绝误差项的同方差性。 
从两组扩展到 j 组要求 k I 对_； _ 1个虚拟变量进行回归，此 
时， F 检验可决定是否拒绝每组方差都是相同的假设。 

作为对已估计的回归模型的回归诊断。对自己是否遇 
到异方差感兴趣的研究者，往往需要在做回归分析前就进行 
检验。然而最近有关同方差性检验的比较分析的结果显示， 
这些检验的统计强度和稳健性差距非常大 （ Conover , John ¬ 
son &- Johnson , 1981)。这些检验的一个共同局限就是它们 
对非正态的分布非常敏感。就此， L eV ene (1960) 提出了一个 
在比较分析中较好的检验，该检验的结构其实与 Glejser 的 
异方差性检验非常类似。 Levene 提出用单向方差分析分析 




绝对偏差值时，如果用偏差的中位数代替偏差均值，其稳健 
性检验会明显提高。为了进行该检验，研究者必须在一开始 
就计算好 IA _之丨，其中，之表示第7组中位数。因为单向 
方差分析等价于对 j 一 1个虚拟变量进行虚拟变量回归，所 
以我们就可以估计回归 方程： 


I Yg ~y, I = B。 + B! D] + …+ jBh Dh + e; 

该方程的 F 检验决定了同方差性零假设是否应该被拒绝。 
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第6节 | 用非独立检验进行 
多重比较的方法 


通过讨论有关估计组群差异的方法，我们找到了另一个值 
得讨论的话题——多重比较的问题。该问题同时是统计学推论 
中的一个论点 ( Miller ，1966) ，源于对单系列的估计进行多组比 
较。要进行比较的数目越大，则至少有一个比较是显著的可能 
性也越大。现在关于如何进行多重比较的显著性检验仍然有许 
多争议。这里，我会简单介绍两种方法一 Bonferroni 检验和 
Fisher 的 t 保护方法 ( Darlington , 1990： 249—275)。 

在本例中，我们检验了不同职业类别的期望收入差异。 
将高级白领作为参照组，表明我们会直接比较五对职业类 
别，即其他五类职业相对于参照组的差异。然而，我们也引 
人了 f 检验，它可以检验回归系数之间的差异。我们知道，所 
有可能的对比数目共有沁一1)个，其中 J 表示类别的数目。 
然而，若比较的先后顺序无关紧要，可能的对比数目会减少 
一半。由此，对于六个职业组，我们可以生成15个可能的成 
对比较。用这些方法来阐述该问题，前提是必须明确这些可 
能的比较是否相互独立。对于该例，高级白领与初级白领的 
比较和高级白领与技术工人的比较不是相互独立的，因为对 
收人较高的高级白领的概率选择可能会影响这两对比较结 
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果。从而，高级白领与初级白领、技术工人与操作工人的对比 
才是独立的比较，或者说是正交的比较。但是，对这些比较的 
显著性检验不是完全独立的。原因在于在计算这两对比较的标 
准差时，我们用的都是总体方差的估计值，即 RSS /( N -^- l ), 
所以该估计的随机波动会影响两个检验的？值。 

Ryan (1960) 发展了对 Bonferroni 不等式和独立检验的 
应用，他证明了 Boferroni 不等式为大多数修正过的非独立检 
验的显著性水平提供了略为保守的估计。该不等式的目的 
是为了根据多重比较的实际情况，提供一个修正后的显著性 
水平。 Bonferroni 检验类似于修正显著性水平 （ CSL ) ，其通 
过把检测得出的所有结果的最显著 f 值所对应的概率/>与被 
检验的结果个数(即 Bonferroni 校正因子或者 BCF ) 相乘，从 
而可以计算出一个修正显著性水平。因此，若15个结果中 
最显著的？值对应的 f 值为 0. 003,那么对该估计修正显著 
性水平即 CSL = 15(0. 003) = 0. 045。其中，15就代表 BCF 。 
如果要用第二小的值来估计系数的显著性，我们就应该将 
该户值乘以14。该方法被称为“压条法”，这个过程一直到找 
到第一个非显著结果才会停止。 

Dunn (1961) 告诉我们，对于双尾检验,表达式 [1-(1- 
CSL )^ 可为我们提供一个修正显著性水平的上限。然而， 
Bonferroni 检验有时太过保守， Dunn 检验有时又显得太过自 
由。如果想更好地理解 Bonferroni 不等式的用法，我们必须 
考虑两个极端情况 ( Darlington , 1990)。第一个情况为两个 
检验在一 1上相关。例如，如果我 们对玖 进行双尾检验.则 
要检验两个零假设 ： (is >0和氏 <0。这两个检验在_ 1上 
相关，因为要拒绝第一个零假设，则必须排除第二个零假设。 
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用 Bonferroni 不等式，我们可以说，至少一个零假设在 0. 025 
显著性水平被拒绝的可能性不会比 0.05 大，即2 X (0.025)。 
在该情形下， P 值和修正显著性水平 0. 05( 即一个双尾检验 
零 假设氏 = 0) 的显著性水平一样大。因此，这么说来， 
Boferroni 不等式并不保守。第二个情况即两个检验在+1 
上相关。假设我们有一个包含 J 个类别的变量，我们每次都 
用第一个类别去和其他任何一个类别比较，这样就可以产生 
j 一 1个比较。该情况在我们有一个类的定性变量并且在 
回归模型里含有根据该变量产生的 J 一 1个虚拟变量时便会 
发生。如果所有除去参照组的类别都有无限的样本量和同 
样的均值，那么所有比较的 t 值也会一样，此时，拒绝一个事 
件的零假设就意味着其他的零假设也要被拒绝。在这种情 
况下，修正显著性水平就等于我们观测到的 A 值。因此，如 
果我们要用 Bonferroni 不定式，我们就要高估修正显著性水 
平。因此， Bonferroni 公式的不准确性与各检验之间的相关 
性有关。各检验间的正相关越大,误差就越大。 

相比之下， Fisher 的方法就更自由一些。运用该方法 
时，研究者进行 F 检验来检验各类别之间没有不同的零假设 
是否要被拒绝。如果 F 检验结果显著，那么研究者就可以进 
行任意类别的比较，因为包含在这些对比中的 f 检验已被从 
F 检验得出的显著性结果证实了。在讨论各种模型的回归 
结果中，第一步总是检验当加人一系列虚拟变量来代表一个 
定性特征(如职业的一系列虚拟变量)或者一系列交互项（如 
种族和职业的乘积项）后，所出现的 K 2 的增量的统计显著 
性。在通过 F 检验建立统计显著性后，我们就可以用 Fisher 
方法来进行多重比较了。 






可替代虚拟变量编码方案 





迄今我们所接触到的虚拟变量大都采用二进制编码并 
指定单一参照组，其实还有很多其他的编码方案也是可行 
的。比如,效果编码和对比编码这两种替代性的方案。同 
样，这两种方法要求我们用_/一 1个虚拟变量来表示具有 J 
个类别的名义变量。 
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第1节 I 效果编码虚拟变量 


如第2章提到的，有些研究者倾向于选择一个中间类别 
作为参照组，而不是直接用一组按序数分布的极端类别，这 
样的选择可以解释为，通过建立组群比较来模拟指定类别和 
所有样本的“平均值”的差异。若想对组群和样本平均进行 
比较，效果编码的解释结构将比二进制编码更方便。 


表 5 . 1 虚拟变量的效果编码和对比编码 


职业类别 


效果编码 


Ei E2 E3 £4 £5 


高级白领 

-1 

一 1 

-1 

-1 

—1 

初级白领 

1 

0 

0 

0 

0 

技术工人 

0 

1 

0 

0 

0 

操作工人 

0 

0 

1 

0 

0 

服务业工作者 

0 

0 

0 

1 

0 

劳工 

0 

0 

0 

0 

1 

职业类别 



对比编码 



Cl 

c 2 

c 3 

c 4 

C5 


高级白领 

0.5 

1 

0 

0 

0 

初级白领 

0.5 

一 1 

0 

0 

0 

技术工人 

- 0.25 

0 

0.5 

1 

0 

操作工人 

_ 0 . 25 

0 

0.5 

-1 

0 

服务业工作者 

— 0.25 

0 

— 0 . 5 

0 

1 

劳工 

一 0 . 25 

0 

_ 0 . 5 

0 

-1 
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为了方便用二进制编码和其他编码方案进行比较，我们 
将继续将收人作为因变量，将种族和职业作为名义自变量。 
表 5. 1举例说明了我们如何分别利用效果编码和二进制编 
码虚拟变量来捕捉种族和职业类别的 信息。 表格的上半部 
分描述了通过效果编码产生的五个虚拟变量，其保留了高级 
白领作为参照组。然而，我们知道在二进制虚拟变量编码 
中，参照组通常被编码为0,而对于通过效果编码产生虚拟变 
量的参照组，习惯编码为一 1。每一个虚拟变量所捕捉的职 
业类别比较即参照组和编码为1的组。在本例中，£：,为高级 
白领和初级白领的对比 ; E 2 为高级白领和技术工人的 对比； 
£ 3 为高级白领和操作工人的对比等等。如果需要比较的组 
群样本大小一样，编码为0的组就不会影响比较结果。但 
是，如果组群的样本大小不一致(这是常见的例子），编码为0 
的组群所带来的影响便会出现，尽管其很小。实际上，编码 
为0的组群的影响随着所有编码为0的观测值的偏离样本 
均值的程度增大而增大 (Cohen Cohen , 1983)。 

表 5. 2记录了效果编码虚拟变量和收人的零阶相关性、 
均值及标准偏差。除了职业类别的虚拟变量，还有一个种族 
虚拟变量 ERACE ， 其为白人时编码为1，为黑人时编码为0。 
二进制编码虚拟变量均值等同于指定组群中的事件比例，而 
效果编码虚拟变量的均值则指出了参照组(编码为_1)和其 
他编码为1的组群的大小差异。实际上，均值即 （ n , —&) / N 。 
例如，&将644个高级白领编码为一 1，337个初级白领编 
码为1，其他为0。那么，的均值为 (337 - 644)/3211 = 
一0.096。负号表示参照组比编码为1的组群具有更多的观 
测值; 强度表示这个差异的大小相对于总体样本的大小。这 
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表 5. 2虚拟变置的均值、标准差和相关性 




效果编码的虚拟变量 




Ei 

e 2 

e 3 

e 4 

e 5 

收人 

ERACE 

-0.132 

-0. 057 

-0. 231 

-0. 272 

-0.333 

0.313 

(0. 000) 

(0.001) 

(0. 000) 

(0.000) 

(0. 000) 

(0. 000) 

Ei 


0.563 

0. 565 

0.662 

0. 644 

-0. 270 


(0. 000) 

(0. 000) 

(0. 000) 

(0.000) 

(0.000) 

e 2 



0. 444 

0. 584 

0.560 

—0. 242 



(0. 000) 

(0. 000) 

(0. 000) 

(0.000) 

e 3 




0.586 

0.562 

— 0. 354 




(0. 000) 

(0. 000) 

(0. 000) 

e 4 





0.660 

—0. 403 





(0. 000) 

(0. 000) 

Es 






—0. 420 

(0. 000) 

平均值 

-0. 096 

0.052 

0.045 

-0.111 

—0. 093 

6903. 220 

标准差 

(0. 544) 

(0.671) 

(0. 666) 

(0. 527) 

(0.547) 

(4629. 954) 



对比编码的虚拟变量 




Ci 

c 2 

c 3 

c 4 

c 5 

收人 

CRACE 

0.271 

0.132 

0.172 

0.164 

0.088 

0.313 

(0. 000) 

(0. 000) 

(0. 000) 

(0. 000) 

(0. 000) 

(0.000) 

Ci 


0.265 

-0. 257 

-0. 006 

0.027 

0.396 


(0. 000) 

(0. 000) 

(0. 358) 

(0. 063) 

(0.000) 

C 2 



-0. 068 

-0. 002 

0.007 

0.270 



(0. 000) 

(0. 462) 

(0. 343) 

(0.000) 

C 3 




0. 009 

0.068 

0.056 




(0. 310) 

(0. 000) 

(0.001) 

c 4 





0. 000 

0.105 





(0. 491) 

(0.000) 

C 5 






0. 040 






(0. 012) 

平均值 

-0.021 

0.096 

0.150 

0.007 

—0. 018 

6903. 220 

标准差 

(0.346) 

(0.544) 

(0. 389) 

(0. 706) 

(0.443) 

(4629. 954) 


注:括 号里为相关系数的概率值。 
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组均值指出，高级白领的观测值数量超过了初级白领、服务 
业工作者和劳工，但少于技术工人和操作工人。效果编码虚 
拟变量的方差是两个待比较组群之间相对频数的函数，即 
Pj +/>ref ~ iP , — Arf ) 2 。 那么，如上所述，巧的方差是高级白 
领和初级白领之间相对频数的函数，即4； = 0.1050 + 
0. 2006 — ( — 0. 0956) 2 = 0. 2965, Sf ； = 0. 544。 

由£,到 E 5 与收人的相关性系数可以看出，高级白领和 
体力劳动者之间的对比(即£ 5 )是最强烈的，因为其均值偏离 
最大。但是，由于样本在各个职业和种族组群之间不是均匀 
分布的，所以零阶相关性的解释还不太明确。在这里，虚拟 
变量间的零阶相关性仍然表示所对应组群的相对大小。对 
于效果编码的虚拟变量，相关系数 0. 50只有在各个组群具 
有相同的样本量时才会出现。当参照组样本大于其组群时， 
零阶相关性系数会大于 0. 50( 例如，^和 £ s 的或£,和£ 4 
的相关 性）； 当参照组样本量少于其他组群时，零阶相关性系 
数会降至 0. 50以下。 

回归结果 

虽然不同的编码方案会使回归系数在数值上有所不 
同,但是总体模型拟合度（由记表示）以及种族和职业类别 
虚拟变量对收人的影响的显著性（由模型1的 R 2 的 F 检验 
和模型3相对模型1的记增量指出）仍可重现第3章中模 
型1和模型3的结果。不同的编码方案会影响信息的捕捉 
方式，即对于不同编码方案，其组群间差异方式的排列不 
同，但是不会影响总体的结果，因为组群之间的结果差异相 
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对于前面的估计保持不变，我们只是从另外一个角度来观 
察而已。 

之前提到过，二进制编码虚拟变量只有在其他虚拟变 
量被控制的时候才能对参照组和指定组进行比较。换句话 
说，组群比较只能作为部分效果而存在。效果编码虚拟变 
量的情况是相似的，尽管比较的本质有所改变。这里，在控 
制了 £ 2 到£ 5 后，氏的偏回归系数表达了初级白领与样本 
中所有组群的比较结果。这样，由偏回归系数估计得出的 
数值就等于第 j 组与没有加权的所有组群的收入期望值差 

异，即压=其中 u 是原来名义度量的类别 

数， t 是第 J 类组群的均值。我们可通过截距得到没有加权 
过的所有组群均值的均值，该值可以作为所有组群差异的计 
算参考点。 

没有加权的均值和总体样本的均值的度量不同，其数值 
相同与否，取决于组群均值相对于组群大小的变异性。总体 
的样本均值可以看成加权后的所有组群均值的均值，因为我 
们计算样本均值时，是把每组的均值与该组的事件数相乘后 
求和，再除以总样本量所得出的。计算没有加权的均值的平 
均值，相当于给每一组样本赋予相同的权重1，不管该组中的 
事件数为多少。这样做的结果是，一些只包含少量事件且度 
量不太准确的组群均值会与有大量观测值且度量较准确的 
组群均值得到同等对待，然而这种准确度上的差异会在回归 
系数的标准差中反映出来。该过程也可以使非标准化的回 
归系数独立于组群的相对大小。 
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表 5. 3 用不同编码方案的回归结果 



效果编码 


对比编码 


模型 1 

模型 3 


模型 2 

模型 3 

常数 

6220. 5 

(85. 8) 

6277. 8 

(83. 2) 


6567. 7 

(78. 8) 

6751. 5 

(88. 7) 

种族 

1601. 4 

(85. 8) 

838.0 

(86. 2) 



838.0 
(86. 2) 

Ei 


853.5 

(196.9) 

Ci 

5247. 6 

(223. 4) 

6443. 8 
(260. 3) 

Ez 


129.2 

(141. 4) 

c 2 

1510. 6 
(137.2) 

2842. 1 
(271.1) 

Ez 


-908. 9 

(140. 9) 

c 3 

1987. 3 

(192.4) 

1494. 8 

(196. 3) 

e a 


-1817.1 

(211.4) 

c 4 

695.5 

(102.1) 

519.1 

(102.3) 

e 5 


-1952.2 

(200. 6) 

C 5 

172.2 
(163.1) 

67.5 
(161.1) 

R 2 

0. 09792 

0. 24624 


0. 22400 

0. 24624 

F 

348.3 

174.4 


185.0 

174.4 


注:括 号里为回归系数的标准误。 


现在，我们来考虑表 5. 3中模型1的回归结果。效果编 
码的种族变量 (ERACE) 是模型中唯一的自变量，所以，其截 
距等于黑人的收人均值加上白人的收人均值，然后除以2。 
读者可以从表 2. 2的数字中证明这个数值。 Berace = 1601.4 
是白人收人期望值 (7821 美元）和没有加权过的白人和黑人 


的平均值的差异，即斜率。 


模型3包含了 ERACE 和职业虚拟变量。从 ERACE 的 


回归系数可以看出，一旦考虑了不同职业类别的收人差异， 
白人的收入正效应仍然显而易见。同样，当控制了黑人/白 
人的收入差异后，初级白领和技术工人平均比其他组群的期 
望收人高,且初级白领的优势超过技术工人。操作工人、服 
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务业工作者和劳工均在均值以下，其中服务业工作者和劳工 
的收入劣势最大。在控制其他职业虚拟变量后，效果编码虚 
拟变量、收人与一个职业虚拟变量的偏回归系数可以被理解 
为该组的“反常”或者“独特”的性质度量 （Cohen Cohen, 
1983)。通过对半偏相关系数取平方，我们可以评估每一个 
类别的特性使收入变异的程度。 

如前几章所述，我们可以用每一特定组群的编码数乘以 
该组虚拟变量的估计系数来预测该组群的收人。如果虚拟 
变量是二进制编码的.该过程就可叙述为把虚拟变量的回归 
系数加人其所代表的组群,并丢弃所有被编码为0的虚拟变 
量。用效果编码虚拟变量,参照组统一被编码为一 1，例如， 
高级白领在所有职业虚拟变量中就被编 码为一 1。因此，要 
计算白人高级白领的预测收人，我 们有： 

Yuwc = 6277. 8 + 838(1) +853. 5(- 1) + 129. 2( - 1) 

— 908. 9(-1) -1817.1(-1) — 1952. 2(-1) 

= 10811.3 

同样，如果要计算黑人高级白领的期望收入，我们只需将 
ERACE(838) 的系数乘以 一 1,其他不变，即可得岀黑人预期 
收人为 9135. 3。通过对比表 5. 3中模型3和表 3. 2中模型3 
的期望收入值，读者可以证实，不论我们对虚拟变量使用哪 
种编码方案，所得出的期望收人值都是一样的。因此，效果 
编码虚拟变量和二进制编码虚拟变量的主要区别在于其参 
考点的定义。不同于估计每个组群相对某个特定参照组的 
差异，效果编码是把每个组群与所有组群进行比较。 

Suits(1983) 证明了，不论这些差异的解释如何，通过在 
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二进制编码虚拟变量的估计回归系数中加一个常数，就有可 
能变更解释框架，从而可以通过各组群间没有加权过的均值 
解释所有组群的偏差。我们可以考虑最简单的情况，即用收 
人对一个二进制编码的虚拟变量种族 ( BLACK ) 进行回归后 
产生的结果，如表 3.1 模型1中所列 出的： 

y , = 7821. 9 - 3202. 9( BLACK ) + e , 

通过一个常数 f 对抆进行调整，我们可以把解释框架从二 
进制编码转化为效果编码模式。我们可以通过 I ] ( B t + c ) = 0 
来确定 c •的值，其中 ft 为二进制编码虚拟变量的回归系数，那 
么，压) A /， 其中 J 为定性度量的类别个数。在该 
例中， c 等于一（一 3202. 9/2) = 1601. 45。通过对每个虚拟变 
量的回归系数加一个 r ， 在常数项里减去一个 c ， 我们有： 

Y , = 6220. 45 - 1601. 45 ( BLACK ) + 1601. 45( WHITE ) 

这样就可以表达 WHITE 的回归系数，尽管它在原先的模型 
设定中为参照组。我们可以简单地假设 WHITE 的效应在 
原先的规范中为0。 

当有多于一个的定性变量被加入规范中时，调整可以在 
虚拟变量组群内确定。比如，当用 INCOME 对 BLACK 和职 
业虚拟变量进行回归后，我 们有： 

y ; = 10811. 4- 1676 CBLACK ) -2842. KOCQ ) 

一 3566. 4( OCQ )-4604. 5( OCC 4 )—5512. 7( OCCs ) 
— 5647.8(0( X 6)+4 

c race 像之前那样确定，即 c race = — ( _ 1676/2)=838。 Cqq . = 
-[(-2842. l ) + (-3566. 4)+ (-4604. 5) + ( — 5512. 7)4 - 
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(-5647. 8)]/6=3695. 58. 我们把 Crace 加到种族的两个类 
别里，其中 WHITE 的回归系数根据原先的规范被设置成了 
0,然后我们再把 Cocc 加到职业的六个类别里，其中高级白领 
的回归系数在原先的规范中也被设置成0,之后我们从常数 
项中减去 Cra CE * Cqcc 。这样，我们就可以表达任意组群相对 
于没有加权的所有组群的平均值的影响了。 

Y , = 6277. 8 - 838 ( BLACK ) + 838( WHITE ) 


+ 3695. 6 COCQ ) + 853. 5(00^) 

+ 129.18(0( X 3)—908. 9( OCC 4 ) 

— 1817.12( OCQ )- 1952. 2( OCQ ) + e ,- 
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第2节 I 对比编码虚拟变量 


表 5.1 下半部分列出了一系列对比编码的虚拟变量。 
在三个条件下，研究者可以通过对比编码指定其感兴趣的比 
较: （1) 对于含有类的名义变量，其表达需要指定 j - l 个对 
比； （2) 任何对比编码虚拟变量的编码的加和必须为0; (3) 任 
何两个虚拟变量的编码必须正交。根据经验产生的对比编 
码需要我们最初就将一系列类别归人两个合并的组群中。 

在此例中,我们可以区分白领和蓝领工作者。 C , 定义了 
所有白领与所有蓝领的 比较。 因为白领组合并了高级白领 
和初级白领，因此每个类别被编码为0.5。同样，由于蓝领包 
含了其他四个组，所以每个类别被编 码为一 0. 25,负号表示 
蓝领与白领的 对比。 其中 ,0.25 是四个组群加人相等权重后 
产生的聚合群的结果，该四个编码之和为1。 

剩余的虚拟变量在它们最初的分类中定义了对比。比 
如， G 对比了两个白领组的成员，因为每个组都是独立的，所 
以一组编码为1，另一组为一 1。 G 比较的是技术工人和操作 
工人与服务业工作者和劳工之间的区别，前两组编码为 0. 5, 
后两组编码为一0.5。 C 4 定义了技术工人和操作工人之间的 
区别， G 比较了服务业工作者和劳工之间的区别。 [15: 我们可 
以将连续两对编码的乘积求和来检验该对比编码组的独立 
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性。例如，对 G 和0的编码乘积求和，我们有 （0. 5)(1) + 
(0. 5)( 一 1) + ( — 0.25)(0) + ( — 0.25)(0) + ( — 0.25)(0) + 
(-0. 25)(0) =0。 

表 5. 2的下半部分列出了表 5. 1中定义的对比编码虚 
拟变量的零阶相关性、均值和标准差。其中，该对比编码虚 
拟变量的均值和标准差是组群相对大小的函数，但是由于编 
码规范中包括的数值均小于1，因此这些频数和均值之间的 
关系对解释的用处不大。 

如前一个例子，这一系列虚拟变量呈现岀和其他变量的 
零阶相关性，即便之前它是用来定义组群对比而现在有了正 
交的性质。但是要求编码正交的条件与要求变量正交不同， 
对比编码虚拟变量之间的相关性是各组群相对大小的函数。 
只有当观测值在各组中均匀分布时，相关性才为 ojw 

有关对比编码虚拟变量和收人之间的零阶相关性的解 
释.确实不甚明确。如 c 2 、 C 4 和(： 5 ，其解释基本上和效果编 
码虚拟变量一样，因为对于这三个变量，对比是由一个编码 
为 _1 的组、一个编码为+ 1的组和其他编码为0的组而捕 
捉到的。这种编码方法和效果编码差不多，除了一点不同， 
即在对比编码虚拟变量中 ，一 1不是被分配到所有相同的组 
中的。因此,这些相关性是用来衡量平均收人编码为一 1和 
1的组间的差异程度，当然是在考虑了 INCOME 的方差的情 
况下。然而，如果组群大小不相等，编码为0的组也可以在 
其度量上影射该信息。 

解释只有两种数值的编码的虚拟变量相关性(如 CJ 非 
常直接，因为 G 把白领编码为 0. 5,把蓝领编 码成一 0. 25,收 
人和 C , 之间的零阶相关系数的平方测量了收人方差的比 
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例，该比例可由白领和蓝领之间的差异来解释。当其他虚拟 
变量没有被控制的时候,编码方案的目的是要计算加权后的 
各组群均值的均值。例如，由于高级白领和初级白领的编码 
是一样的，所以和零阶相关性有关的白领平均 INCOME 是 
一个合并的均值，忽略了原先细分的组群信息。换句话说， 
白领的均值是包括了所有白领工作者，即高级白领和初级白 
领加在一起的收人均值。因此，零阶相关性包括了加权后相 
似编码组的均值。我们知道，该数值可以通过每组的均值与 
每组的事件数相乘求和后，再除以所有事件数得出。然而， 
必须指出的是，该解释只有在处理仅有两个可能数值的对比 
编码虚拟变量的零阶相关性时才合适。所以，我们可以得岀 
一个普遍的结 论:尽 管对比编码虚拟变量基于所有变量，为 
我们提供了总结回归结果的一个有用的替代方法，但是这种 
一次只能比较一个变量的简单描述性统计并不特别有用。 


回归结果 


表 5. 3的右边两栏列出了模型2和模型3的回归估计结 
果。没有包括模型1的估计结果，是因为它和效果编码虚拟 
变量完全一样。再提一下，第3章表 3.1 中列出的 R 2 和 F 
检验可重现，这强调了三种方法在多元回归分析中的等 
价性。 

包含在回归估计中的剔除过程相对二元测量，仍需要一 
个更直接的系数解释方法，尽管一些额外计算是必需的。对 
模型截距的解释和对模型效果编码虚拟变量的解释相同，即 
没有加权的所有组群均值的均值，它为我们提供了估计组群 
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效应的参考点。每个虚拟变量指出了两个组群或组群集合 
的对比。变量的偏回归系数是没有加权的组群均值的均值 
与用来创建对比的编码差异的函数。由于剔除过程，编码为 
0的组已被排除，不进行比较。 

组群对比 C , 被定义为： 

[5 - 1] 

其 中，％ 为第一个集合中所包含的组群数，％为第二个集合 
中所包含的组群数， B 是虚拟变量的回归系数。例如，系数 
C , 是白领和蓝领对比的函数，将其带入方程 5. 1，我们 得到： 

Q = 5247. 6 (1^ - :) = 5247. 6(0. 75) = 3935. 7 

其他对比的计算如下： 

Cz = 1510. 6(2)=3021.2 
Q =1987. 3(1) = 1987. 3 
C 4 =695. 5(2) = 1391.0 
Q = 172. 2(2)=344.4 

通过表 2. 2 列岀的组群均值，读者可以证明，这些对比确实 
可以重现组群均值差异或者没有加权的组均值的均值。 

这些对比的标准差可通过将回归系数的标准差乘以一 
个我们之前用于加权系数的因子而得到。例如，高级白领和 
初级白领的对比的标准差 ( C 2 ) 为 （137. 2)(2) = 274. 4。该值 
和表 3.1 中模型2列出的 OCQ 的数值一样。同时，回归系 
数的 f 检验使我们可以估计由虚拟变量定义的对比是否可以 
推广到整体。在模型2中，回归系数 C , 到 C 4 在 0. 001的水 
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平上都很显著，但 G 却不是。从而我们可以得出结论 :总体 
而言，没有加权过的高级白领和初级白领的平均收入比蓝领 
的平均收 人高; 高级白领平均收人比初级白 领高； 没有加权 
的技术工人和操作工人组比服务业工作者和劳工组的平均 
收人高，但是劳工的期望收人却与服务业工作者没有显著 
差别。 [17] 

当所有其他虚拟变量被控制时，半偏回归系数的平方表 
示了可由一个特定对比所解释的 Y 的样本方差的比例。我 
们来看看表 5. 3中模型2的半偏系数，假设其最大部分的方 
差来自白领和蓝领之间的对比（例如， 0. 365 2 = 13, 3%)。然 
而，半偏相关系数的平方和不能为方程提供记值，因为 C 变 
量是相关的。只有当所有的组群大小都一样时，对比编码虚 
拟变量之间才是无关的，而且只有当回归因子正交时，半偏 
相关系数的平方和才等于茫。 



虚拟变量用法专题 



至此，我们一直在用同一个数据集的同系列变量来探索 
逐渐复杂化的模型中虚拟变量的解释方法。在这一过程中 
我们也发现，引入虚拟变量可以使建模更加灵活。除了那些 
之前提到的假设，虚拟变量还经常用于一些其他形式。本章 
我们将探究一些虚拟变量在回归分析中的其他使用方法。 
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第1节 I logit 模型中的虚拟变量 


越来越多的研究者在 logistic 回归模型中运用二分类或 
多分类的因变量。由于许多研究问题涉及组群差异，在 
logistic 模型中，虚拟变量回归因子已很常见。假设一个模型 
以死亡率为因变量、性别为虚拟变量，那么 logit 回归的虚拟 
变量的回归系数代表一个和性别相关的死亡对数优比 （ log - 
odds 〉 的增量或者减量。 然而，解释一个对数优比并不像解 
释一个简单的机会比率 (odds ratio ) 那么有吸引力。那么，我 
们可以转换解释框架吗？答案是肯定的。我们可以通过 
logit 系数的反对数来完成从相加效应(我们会在用线性相加 
模型预测几率对数时详细说明）到乘积效果，即把因变量变 
为一个简单的机会比率 ( Alba , 1988)。由于对数转变可以使 
我们用相加的形式代表相乘关系，因此这种从相加关系到相 
乘关系的转变会伴随着从对数优比到机会比率的 转变。 

为了解释这个方法，我们先来看看 Idlei •和 Kasl (1991) 
的研究结果，即上了年纪的女性的预期死亡率作为其自身健 
康和健康风险因素评估的函数。对于该模型，因变量为四年 
里死亡的对数优比。如果受访者去世了，则编码为1;若没有 
去世，则编码为0。主观的健康状态由一组三个虚拟变量来 
衡量，以“健康状况非常好”为参照组。健康状况控制了包括 
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癌症、糖尿病、间歇性跛行和髙血压，如果存在其中任一情 
况，则编码为1。此外，还有需要协助的活动个数、日常不可 
自理的活动个数 （ ADL )、 身体质量指数、年龄以及测量现在 
或者以前是否吸烟的两个虚拟变量，其中•以不吸烟者作为 
参照组。表 6. 1记录了有关 logistic 回归结果的估计。右边 
栏为虚拟变量 logit 系数的反对数。我们可以看出，当控制了 
其他变量时.健康状况差的相对于健康状况非常好的，其死 


亡的对数优比会增加。换句话说，在其他条件相等的情况 
下，健康状况差的女性的死亡几率是健康状况非常好的女性 
的 3. 12倍。同样，当控制了其他因素时.健康状况一般的 
女性的死亡几率是健康状况非常好的 2. 85倍，健康状态好 


表 6.1 虚拟变董的 logistic 回归 



logistic 回归系数 (fi) 

反对数 (B) 

常数 

—6. 308*** 


自我评估健康状况 



差(同非常好比较） 

1.138* 

3. 12 

一般(同非常好比较） 

1. 047* 

2. 85 

好(同非常好比较） 

0. 862* 

2. 37 

搪尿病 

0. 963 *** 

2. 62 

ADL 值 

0.041 


活动 

0. 393* 


间歇性跛行 

0.982 

2. 67 

高血压 

0.369 

1. 45 

年龄 

0. 061** 


现在仍吸烟(同不吸烟比较） 

0. 769細 

2. 16 

以前吸烟（同不吸烟比较） 

-0. 312 

0. 73 

体重 (kg)/ 身高 2 (m) 

—0. 076*** 



注〆表示系数在 0. 05显著性水平上 显著； 

•- 表示系数在 0. 01显著性水平上 显著； 

…表示系数在 0. 001显著性水平上显著。 
资料来源 Jdler 和 Kasl( 1991) 。 
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的是健康状况非常好的 2. 37倍。此外，吸烟的净效应告诉我 
们，现在还在抽烟的女性的死亡几率是不抽烟女性的 2. 16 
倍。对于样本成员，过去吸烟然后戒掉的女性的死亡几率比 
不抽烟的女性低，即为不吸烟女性的 0. 73倍，然而估计差异 
并不显著。 

模型中的因变量是进行了对数转变的，其虚拟变量系数 
解释要分两部分说明。第一部分（见第4章后半部分)通过 
系数的算术转变，读者可以解释其中的百分比差异。在这一 
章中，我们对乘积效应作出了解释。表面上来看，虚拟变量 
的系数在第4章运用的半对数模型中的解释和 logit 模型解 
释不同。相反，这两种解释只在方差上有微小的差别。在方 
程 4. 10中，我们把相对影响定义为存在某种特征的百分比 
差异，其由编码为1的虚拟变量说明。例如，在白人中，当控 
制了模型中的其他变量后，劳工的期望收入比高级白领的收 
人少40%。然而，如果不从回归系数的反对数里减1，我们 
的结论是针对职业差异的乘积项的，即劳工的收入是高级白 
领的60%。不管怎样，用虚拟变量回归系数估计的反对数转 
变模型来解释其相对影响是非常重要的。 
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第2节 | 非线性检验 


虚拟变量常用来代表名义编码的自变量类别。但是，我 
们也会用虚拟变量来表示定序变量或者区间变量。例如，当 
我们怀疑自变量与因变量之间存在非单调性或者曲线性关 
系，但又没有很好的基础来预测这种特殊形式的曲线性时. 
虚拟变量回归提供了一个非常有用的替代方法来取代多项 
式回归或者算术转变模型。通过用一系列虚拟变量代表一 
个定量自变量，我们把整体分布分成几小段，然后检验虚拟 
变量之间是否存在线性或者曲线性的关系。 

现在，我们用一个比较熟悉的例子来解释收人和教育之 
间的关系。与其断言教育的影响在整个区域都是相同的，不 
如先检验每增加一年的教育所带来的收人增量是否由其在 
整个分布中的位置而定。为了检验这个教育和收人之间的 
曲线性关系，我们要评估以下两个 模型： 

模型 6. 1: Y = /( 教育年限） = i 3 o + (3, EDUC+« f 
模型 6 . 2: Y = /( 代表各教育水平的虚拟变量） 

=+ 2 ?j ed j 

在模型 6. 1中，教育 ( EDUC ) 是作为一个定量变量的，而在模 
型 6.2 中，教育被指定为一系列的虚拟变量，符号为 ED , 。其 
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中，当受访者没有接受过正式教育时， EDb 编码为1;当受访 
者完成了超过一年的教育时， ED , 编码为1;当受访者已经完 
成了 17年的正式教育时， ED 17 编码为1。参照组为接受了 18 
年正式教育的受访者。 



0 2 4 6 8 10 12 14 16 18 


虚拟变量 线性 

图 6.1 非曲线性检验 

图 6.1 对这两个模型结果作出了解释。乍看之下，会感 
觉其关系确实有些曲线化。在整个教育区域内，期望收人差 
异在连续的组群之间是不一致的。斜率在低教育水平上比 
较平缓，随着教育程度的升高.其呈现出比较陡的趋势，尤其 
是完成了 12年教育之后。用虚拟变量代表教育年限的模型 
相对于线性模型，可解释更多的方差。模型 6. 1解释了 
19. 6%的收入方差，而模型 6. 2解释了 21. 4%的收人方差。 
当检验放宽了线性回归假设后.要检验被解释方差的增量是 
否统计上显著，就需要如下的 F 检验，其中分子的自由度是 
由虚拟变量模型中多出的虚拟变量个数决定的.分母的自由 
度等于事件数减去虚拟变量模型中的参数 数目： 
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p CR 〖— i ?〗)/( df 2 -dU r/ . , n 

F= ( l - l ^)/( N - df 2 ) L6 ' 1J 

将该 F 检验运用到模型 6.1 和模型 6. 2中，我们 得到： 

F _ (0. 21390-0. 19624)/(19 — 2) 

173192 - (1 -0. 21390)/3192 

= 9 - — QQ 迦 = 4 16 
0. 00025 t D 

当在 0. 01显著性水平下与 F 的临界值比较时，该 F 值是统 
计上显著的。 

如果自变量在度量上是真正连续的，原先的变量必须在 
用一系列虚拟变量表示前.重新编码成离散的类别。当这一 
步骤成为必需时，第二个模型和现在文中出现的模型或多或 
少会有些不同，因为原先的定量自变量和虚拟变量是一起包 
含在模型设定中的，但是 F 检验的公式和两个方程的 R 2 相 
比是不变的。 
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第3节 | 分段线性回归 



虚拟变量可以让我们对一个回归线上斜率的突变建模。 
当斜率是逐渐变化的时候，即当 y, 和 x, ，在 x 2 ，上以线性方 
式增加或减少时，我们就可以用一个乘积项来捕捉该效应。 
当斜率突变时，我们可以用虚拟变量来协助估计该变化的强 
度和显著性。当我们可以界定出定量自变量（足）分布的临 
界值，而且希望看到 x, 和兄之间的关系在该临界值两边不 
同时，这个方法就相当有用。例如，零售业的营销人员经常 
可以从佣金中得到部分补偿，这些佣金与他们卖出的商品的 
数量有分级相关的关系。同样，投人和产出可能与经济规模 
有关，因此我们可根据该经济规模来修改某个产出水平下的 
投人方程。关于这个，我们会在后面具体说明。 

假设我们有两个 分布: 第一个分布列出了全部 产出； 第 
二个分布列出了全部投入。我们可以进一步假设，当期望产 
量达到5000时，每单位投人会减少多少。因此，5000即一个 
临界值X'。为了估计斜率，即每单位投人在； T = 5000时 
的变化，我们必须先通过临界值计算每个产岀水平的偏差, 
即（X,— ; T), 然后定义一个虚拟变量 （D,)， 使其在产出超 
过临界值5000时为1，否则为0。那么，模型可以写成： 

模型 6. 3： Y t = Bo+BjX.4- B 2 (X,--X* )D,+ e> 
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其中，玖估计的是产出不到5000时的斜率 ，（玖 + 压） 估计 
的是产出超过5000时的斜率。因此, B 2 估计的是斜率的变 
化， a 的《检验提供给我们的是对斜率变化估计的显著性 
估测。 

继续看我们的例子，当用投人对产出进行回归时，我们 
可以得到以下 结果： 

y, = 143. 798 + 0 .109 OUTPUT + ei 
(27.455) (0.006) 

该方程解释了 193. 75%的方差，这说明，当产出增加一个单 
位值时，整体投人会增加大约11美分。换句话说，即每件物 
品的边际成本为 10. 9美分。当评估一个分段回归模型时， 
我们会 发现： 

y, = 87.059 + 0.1290 UTPUT 
(34.264) (0.010) 

— 0. 045 COUTPUT - OUTPUT * )( D ,) + e , 
(0.018) 

该方程解释了整体投人95%的方差。和之前的模型相比，它 
有1.25%的显著提高。另外，我们知道，当产出少于5000 
时，每单位的边际成本大约是13美分。然而，当产量高于 
5000时，边际成本会降到 8. 4美分 (0.129-0. 045)。 
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第4节 | 时间序列数据中的虚拟变量 


当数据为截面数据时，虚拟变量可以提供一个在因变量 
期望值下估计组群差异的方法。在这种情况下，组群可由我 
们期望与因变量的分布结构相关的特征来定义。当数据成 
时间序列分布时，虚拟变量可以对组群观测进行分类。然 
而，在时间序列数据里的分组更有可能被定义为相对重要的 
事件。就像截面数据一样，虚拟变量如同分布机制的代理， 
不仅很难衡量，而且也很复杂。由于它们起着代理的作用， 
因此对差异背后的机制解释很容易引起争议，那么，其有效 
性及对任何模型设定的解释都可以成为一个反对的理由。 

虚拟变量在时间序列回归中可用来捕捉区域性的或者 
组群差异的信息。但是，它们也可以用于检验参数结构稳定 
性和构建季节指数的工具。例如，研究美国工会会员增长的 
人员通常认为，《瓦格纳法案》的通过是工会主义发展的主要 
原因; 研究军方花费增长的调查人员发现，对战争动员的效 
应调整是非常必 要的； 还有一些建模研究试图说明，税法的 
变化是某项投资的盈利变化的决定性因素。我们知道，一个 
重要事件的影响可以导致趋势线的转变及其过程的结构 
调整。 

关于结构稳定的例子，我们可以研究一下 Carl Chen 
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(1984) 有关三里岛核事故对市场模型稳定性的影响问题。 
他的数据由 1978 年第一季度到 1980 年第一季度的 70 个公 
用事业股的周价格组成。这些核公司的股票在该事件后大 
幅度下降, Chen 通过比较事件之前和之后的参数估计来检 
验市场模型的稳定性。根据需要，他提出了以下模型： 

模型 6. 4 : =既。 + 如 r M + 

其中，^，为 j 股在时间？内的每周回报, 〜为以 标准普尔指数 
表示的市场回 报,％ 是随机干扰项。 

用虚拟变量来检验截距 (ft。） 和斜率(如）稳定性的方法 
需要我们把样本分成两个子样本期。在这种情况下，我们定 
义一个虚拟变量，当观测发生在事件之前时 .D = 0,发生在 
事件之后，则 D= 1,事件发生的那周从观测中删除。这样. 
检验模型 变为： 

模型 6. 5: r, = (3/ 0 + 13/! r m + 13/ 2 D + r m D + u , 

其中，估计了两个样本期截距值的差异,估计了两个样 
本期斜率系数的差异。研究核公司的组群，即那些在 1980 
年有多余10%核燃料的结果如下，其中括号里的为 f 值： 

r } = - 0. 0022 一 0. 0031D + 0. 3553r m -(- 0. 0614r m D 
(1.43) (1.32) (4.13) (0.50) 

根据这些结果，“没有结构性变化”的零假设不能被拒绝。 
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第5节 | 虚拟变量和自相关 


我们可以考虑一个简单的时间序列模型，预测 I 作为 
X , 和一个虚拟变量 D ( D = 1表示后两个时期）的函数，该模 
型用来估计包含两个时期跨度的过程。那些对估计7水平 
的变化和形成 Y 的过程变化感兴趣的人，可能会试图估计以 
下模型： 


Y , = Bo + B . D + B ^ ，+ B 3 DX , + e , 

其中，玖估计了从第一期到第二期的变化， B 2 估计了第一期 
时 x 的效应， b 3 估计了在第二期和第一期之间的 
影响变化的差异。 

在估计时间序列模型时，研究人员必须注意它是否违反 
了没有自相关的假设。如果残差检验告诉我们误差之间有 
相关性，则 OLS 估计是无效的。要处理自相关问题.研究者 
必须经常假设干扰项是从一阶自相关过程中产生的，也就是 
说，现时段干扰项是之前时段干扰项的函数。这种相关的程 
度由自相关系数 P 来测量。那么，补救措施就会涉及估算广 
义差分方程，即用 （ Y , - pY ^ ) 对(足 一 P X ^,) 进行回归。其 
中， f ) 为对自相关系数的估计。但是虚拟变量呢？是不是要 
对它们进行同样的转变呢？其实不用（参见 Maddala ， 1992： 
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321—322)。假定虚拟变量定义了两组观测，最关键的观测 
为第二期中的第一个观测，研究人员必须对这些组群里的观 
测进行如下 定义： 

第一，对于所有第一期的观测， D 值为0;第二期的第一 
个观测的 D 值为 1/(1 _ p ) ; 其他第二期的观测的 D 值为1。 

第二，对于所有第一期的观测的乘积项， DX , 的值为0; 
第二期第一个观测的乘积项为 X ,;对于其他第二期的观测， 
其乘积项值为 ( X ,- P X ^) 0 




我们知道，恰当地运用虚拟变量可以大大提高回归模型 
的灵活性。然而，恰当地使用和解释虚拟变量涉及很多复杂 
的问题。本书的目的是通过分析逐步复杂的情况，为读者提 
供一些使用虚拟变量的指导。这些方法当然不完全，因为我 
们仅把视线局限于虚拟变量作为单方程模型的自变量中。 
但是，因子分析中的二元变量使用方法，如结构方程体系中 
的内生和外生变量，或者单方程或多方程系统中的因变量受 
到越来越多的关注。想追求更高深的定量数据分析的读者 
可以参考如下 文献： Madd a la (1983) 处理回归模型中多线因 
变量的方法； Haberman ( 1978、 1979) 的两卷书 ； Goodman 
(1978) 有关定量数据分析的文章； Aldrich 和 Nelson (1984) 
关于线性概率、 logit 和普罗比模型 概论; Allison (1984) 有关 
事件历史模型的讨论 ; MuthenC 1984 ) 和 Shockey (1988) 对无 
法观测变量的离散数据模型的讨论； Clogg 和 Goodman 
(1984、 1985) 的潜在结构分析以及 Winship 和 Mare (1983、 
1984) 关于离散数据的结构方程模型和回归模型的文章。 



注释 


119 


注释 


[1] 为了产生独立可靠的估计.就必须保证有足够数量的黑人。因此，我们 
对黑人区的住户进行过度釆样。简单来说，在该测试中，我们用的是没 
有进行加权的数据。 

[2] 实际意义较次要的是剩余的职业类别虚拟变量的相关系数。因为它们 
代表了所有不同且互斥的单一属性类别（如职业），这些虚拟变量都必 
须是逆向联系的.即相关性为负。在二分变量中，如同该例的 种族. 
BLACK 和 WHITE 之间的相关性为 一1. 00。对于多分类变量，尽管相 
关性仍为负，但却不可能负得如此完美。如果一个受访者为服务业工 
作者.那他一定不是初级白领、技术工人、操作工人或者劳工，但是如果 
一个受访者不是服务业工作者，那他不一定是操作工人、劳工等等。两 
个虚拟变量之间的相关性大小是每两个变量中被编码为1的事件数和 
样本大小的函数。在表 2. 3中，技术工人和操作工人包含的事件最多 * 
因此这两类的相关性最高 ，为一 0. 328。相反，服务业工作者和劳工是 
事件数最少的两类.其相关性仅为一 0. 108。在这种情况下，两个虚拟 
变量的相关性 等于一 [(p,/>；)/Cl — A)(l _ P;)] 1 ' 2 。 

[3] 我们必须记住，相关系数对变量的方差非常敏感。对于虚拟变量，相关 
系数由类别的相对频数而定。 

[ 4 ] 由于模型1为一个二元回归模型.因此 .F 检验和£检验是等价的，该检 
验的/值 (一18. 7) 是 F 值 (348. 3) 的平方根。从模型回归估计得到的 
信息和从单因素方差分析得到的结果一样，当相同的组均值估计出现 
时， F 检验会得出相同的结果（同样的数值） 3 另外， tf (在该例中等于 
0. 09792) 和模型1中的尺 2 也是一样的。 

[5] F 检验的自由度包括了与回归平方和及残差平方和有关的自由度。回 
归平方和的自由度和模型中自变量的数目是相等的•在该情况下，如果 
模型包含5个虚拟变量，那么自由度为5。残差平方和的自由度等于 
N-k-l, 其中 iV 是观测数4是模型中自变量的个数。当 F 检验是由 
R 2 和 （1 —R 2 ) 的比率计算出来的时候，自由度则如上所述。 

[6] 从数学的角度来讲，参照组的选择是随意的，研究者可以选择不同的参 
照组再进行回归，让计算机程序来提供利益/检验。 

[ 7 ] 方程 4. 4通过两个系数的加和来捕捉黑人在不同职业类别中的期望收 
人差异。 

[ 8 ] 事实上.黑人中由显著职业差异导致的平均收入差异很少，该现象大部 
分归因于另外两个被控制了的变量——教育年限和工作任期。如果我 
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们所估计的模型只包含种族、职业和种族与职业的乘积项，那么回归结 
果应 该为： 


E ( Y ,) = 10960. 3-3958. 4 ( BLACK )-2898. 9(00(^)-3625. 6( OCC 3 ) 


-4875. 0( OCC 4 )-6154. 7( OCC 5 ) —6182. 9( OCC 6 ) 


+ 1747. 8( BLOCC 2) + 1781. 6( BLOCC 3 )+2594. 5( BLOCC 4 ) 


+ 3238. 6( BLOCC 5 )+2885. 4( BLOCC 6 ) 


其所有系数的 z 值都比 ±2. 00 大。用方程 4. 5 来构造黑人在不同职业 
中平均收入差异相当的；检验，我们发现，只有初级白领和高级白领的 
差异没有达到 0. 05的显著水平。读者也可以用以上估值来证明该模 
型设定中的均值和由种族内不同职业计算出来的均值(见表 2. 2) 是等 
价的。 

[9] 教育年限和工作的差异效应与职业类别相关的问题是可能的。在该例 
中，我们对黑人和白人之间的差异估计感兴趣，不仅在于其期望收入的 
差异，还有和收入水平相关的结构影响问题。除了看种族之间的教育 
效应，我们还需在假设中加入职业类别的影响。在同一个雇主下多工 
作一年，其作为稳定性指标、作为对公司的忠诚或者特定的职业训练， 
可能技术工人相对于劳工会得到更多的收人。多一年的教育年限，专 
业人士可以挣得更高的收入，但这一点却不适用于工厂操作工人，因为 
这些不会增加他们职位提升的机会。如果我们的兴趣在于教育和工作 
任期的职业影响，乘积项可以根据每个职业虚拟变量和教育年限编码， 
也可以对每个职业虚拟变量和工作任期的乘积项进行编码。如果我们 
只检验职业差异效应并且发现教育和工作期限的差异影响非常显著， 
那么，就要构建6对平行线来看教育差异效应，每对实线都针对一个特 
定的职业组群，其斜率对于黑人和白人是一样的，但是对于不同的职业 
类别，斜率是不同的。关于描述工作任期差异效应的虚线，其趋势也 
一样 。 

[10] 反对一个零假设，即(3=0,对 一0. 16进行 f 检验会产生一个 一1. 45的 
t 值; 对 _0. 32进行 r 检验，会产生一个 一2. 29的£值。 

[11] 有关两个种群参数的等效检验已经提岀。其中一个检验适应于方差检 
验的框架 ( Chow ， I 960; Maddala , 1992)。其步骤是我们先分别估计 
每个组群的回归模型，然后从不同的回归结果中获得其残差平方和 
( RSS ,) 。并且，还需要对合并的样本进行回归估计，同时得到合并样本 
的残差平方和 RSS 。 对于该参数等效的 F 检验(有6 + 1和叫+〃 2 — 2 
个自由度） [( Rss lX 30 led - X ； Rss / )/ a + x )]/[5] RSS j /(72 1 +卟一 



注释 


121 


2灸 一 2)]，其中， ^] RSS ; 为对不同组群进行回归估计得到的 RSS 之和， 
々为模 型中自变量的个数， 〜和屯 分别为两个组群的观测数。该例的 
F 值已经大到可以拒绝零假设(参数的平等性），这说明在两组群中，不 
是所有的自变量的影响都一样。然而，该检验并不能表明哪些参数是 
不同的。 

[12] 残差平方和 RSS /( W _ 々一 1) 中，《为事件数4为模型中的自变量个 
数， RSS 是残差平方和，可由算得，但是一般的统计软件程序都 
会提供该结果。在 OLS 假设下，该数通常可以提供对(/的无偏估计， 
即总体的方差 m ,。 

[13] 在计算对数时，我们必须说明其基数。最普遍的基数就是 e , 其通常也 
被称为“自然对数”，还有一个就是10。 e 的值约为 2. 72。要对以 e 为 
底的 X 取对数，我们需要确定 X 所需要的 e 的幂次。同样.如果取以 
10为底的 X 的对数，我们就需要确定 X 所需要的10的幂次是多少。 
对数模式会使分布变得与之前不同，其非线性也非常明显，因为以10 
为底的对数值1、2、3对所对应的最初分布数值为10、100和1000。 

[14] 估计黑人在不同职业内影响的显著性与确定黑人和白人在不同职业内 
差异的显著性的过程是一样的。黑人在高级白领中的效应可以通过 
BLACK 回归系数捕捉到，在初级白领中的效应可以看对于 
技术工人，该效应为 B , + B ui 对于服务业工作者，为 B , + B 12; 对于劳 
工，黑人的效 应为玖 + B 13; 如果要看种族效应在职业类别内是否显 
著，即看其相对其他特定效应的净效应，我们要用方程 4. 5 的 f 检验来 
表达。5 个职业类别的 i 值分别为 一4. 07、 -5. 58, —5. 63、 一1.90 和 
-4. 70。 

[15] 当创建对比编码变量时，我们有很多选择。比如，可以用技术工人与操 
作工人、服务业工作者和劳工的组合来进行比较。这样，技术工人则被 
编码为1，而操作工人、服务业工作者和劳工就被编码为一 1/3。之后， 
再比较操作工人与服务业工作者和劳工的组合，这样，最后一个比较也 
和文中所述的一样了。 

[16] 熟悉传统方差检验的读者可能知道，这种情况和同组群大小要求的情 
况的相似处在于，它们都是在一个 n 因素方差分析中作出正交设计的。 

[17] 由 C 5 定义的对比显著性的替换性检验，在第3章描述关于服务业工作 
者和劳工之间的差异时已被提及。方程 3. 1为包含二进制编码虚拟变 
量的两组群间的差异提供了检验方程。读者可以用表 3. 1中的结果来 
证实两个过程的£值相同，而且其对比和标准差都与方程 3. 1中定义 
的均值差异和标准差差异估计一样。 
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additive effect 

相加效应 

bias 

偏差 

binary coding 

二进制编码 

bivariate regression 

二元回归 

chance fluctuation 

随机波动 

contrast coding 

对比编码 

correlation 

相关性 

covariance 

协方差 

cross sectional data 

截面数据 

cross-tabular analysis 

列联表分析 

curvilinearity 

曲线性 

dependent variable 

因变量 

descriptive Statistics 

描述性统计 

differential effects 

差异效应 

discrete variable 

离散变量 

dummy variable 

虚拟变量 

effects coding 

效果编码 

expected value 

期望值 

explanatory power 

解释功效 

Fisher s protected t method 

Fisher 的/保 护方法 

fit of the model 

模型拟合 

homogeneity 

同质性 

hypothetical data 

假设数据 

independent variable 

自变量 

incremental F test 

增量 F 检验 

interaction 

交互作用 

interaction effect 

交互效应 

interaction terra 

交互项 

intercept 

截距 

magnitude 

强度 

marginal value 

边际值 
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mean regression sums of squares 

平均回归平方和 

measures of association 

相联度量 

midrange mean value 

中距均值 

moderating effect 

调解效应 

multiplicative effect 

乘积效果 

nominal variable 

名义变量 

non-independent test 

非独立检验 

non-normality 

非常态性 

null hypothesis 

零假设 

one-way analysis of variance 

单向方差分析 

orthogonal 

正交 

partial correlation 

偏相关 

partial effect 

局部效应/偏效应 

partial slope 

偏斜率 

partialing procedure 

剔除过程 

piecewise linear regression 

分段线性回归 

point biserial correlation coefficient 

点二列相关系数 

point estimate 

点估计 

polynomial regression 

多项式回归 

polytomous variable 

多分类变量 

population 

整体 

pooled estimate 

合并估计值 

power 

检定力 

reference group 

参照组 

regressor 

回归因子 

regression coefficient 

回归系数 

residual sum of square 

残差平方和 

robustness 

稳健性 

sampling error 

抽样误差 

semilogarithmic equation 

半对数方程 

simultaneous statistical inference 

同时统计学推论 

single explanatory characteristic 

单解释性特征 

slope 

斜率 
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statistically significant 

显著性水平 

t statistic 

^ 统计量 

test statistic 

检验统计量 

time-series data 

时间序列数据 

two-tailed test 

双尾检验 

variance 

方差 

variation 

变异 

weight 

加权 
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